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FOREWORD 邦 


最 近 几 年 ， 媒 体 频繁 报道 人 工 智 能 的 相关 信息 。 从 使 用 了 深度 学 习 的 
图 像 处理 和 语音 识别 ， 到 汽车 自动 驾驶 和 机 器 人 等 领域 ， 人 工 智 能 已 经 为 
人 们 所 熟知 。 特 别 是 Google 旗下 的 DeepMind 公司 在 2016 年 开发 的 人 工 智 
能 围棋 系统 AlphaGo ( 阿尔 法 围棋 ) 击败 了 专业 围棋 选手 一 事 ， 进 一 步 提 升 
了 公众 对 于 人 工 智 能 的 认 知 。 技 术 奇 点 〈singularity ) 来 临 一 事 被 频繁 提 及 。 

2003 年 ， 我 因为 工作 需要 开始 接触 数据 分 析 。 当 时 人 工 智 能 这 一 术语 
已 经 存在 了 很 长 一 段 时 间 ， 我 也 使 用 过 神经 网 络 等 机 器 学 习 方 法 ， 但 并 不 
觉得 有 多 么 智能 。 当 时 几乎 没有 日 文 版 的 了 语言 教程 ， 我 只 能 根据 S-PLUS 
的 使 用 手册 来 安装 R， 然 后 基于 SOM 和 K-means 进行 数据 分 析 。 

在 2012 年 左右 ， 一 股 大 数据 热潮 席卷 而 来 ， 使 用 分 布 式 文件 系统 和 
并 行 分 布 处 理 等 方法 的 大 规模 数据 分 析 变 得 广为人知 ， 数 据 科学 家 成 为 热 
门 职 业 。 再 加 上 后 来 的 物 联 网 ( Internet of Things，IoT ) 以 及 机 需 学 习 和 
深度 学 习 ， 人 工 智能 迎 来 了 一 次 热潮 。 

如 果 站 在 2003 年 看 10 年 后 的 变化 ,会 有 一 种 民 如 隔世 的 感觉 。 机 器 
学 习 和 深度 学 习 取 得 了 突飞猛进 的 发 展 ， 人 工 智 能 和 数据 科学 的 前 沿 技 术 
以 非常 快 的 速度 更 新 着 。 这 时 候 ， 我 们 需要 停 下 脚步 ， 从 整体 审视 人 工 智 
能 ， 看 看 它 到 底 会 发 展 到 什么 地 步 ， 究 竟 可 以 为 我 们 做 些 什么 。 

本 书 就 在 这 样 的 背景 下 应 和 运 而 生 。 书 中 涵盖 人 工 智能 各 方面 的 内 容 ， 
阅读 本 书 的 读者 不 需要 有 多 人 么 深厚 的 知识 储备 。 另 外 ， 作 者 不 惜 笔 墨 对 新 
技术 进行 了 介绍 ,希望 读者 能 在 多 个 方面 有 所 斩获 ， 也 希望 本 书 能 够 成 为 
读者 深入 探索 人 工 智 能 领域 的 起 点 。 

本 书 适用 于 所 有 对 人 工 智 能 和 数据 分 析 感 兴趣 的 人 。 


东京 农工 大 学 农学 府 农学 部 ”特约 教授 

信息 处 理学 会 IT 论坛 “大 数据 应 用 论坛 ”代表 
石井 一 夫 

2016 年 12 月 吉日 




















































































































Ce 
PREFACE 中 


自 2010 年 以 来 ， 得 益 于 深度 学 习 ( deep learning ) 的 应 用 ， 图 像 识 别 技 
术 取 得 了 飞速 发 展 ， 日 本 也 迎 来 了 第 三 次 人 工 智能 ( Artificial Intelligence， 
AI ) 热潮 。 

在 开发 人 工 智能 系统 时 ， 我 们 需要 掌握 机 器 学 习 的 相关 知识 ， 其 
括 线 性 代数 、 数 学 分 析 和 一 部 分 统计 学 知识 等 。 本 书 就 涵盖 了 这 些 内 容 
涉及 范围 之 广 是 其 他 图 书 无 法 相提并论 的 。 

另外 ， 因 为 本 书面 向 的 读者 群体 是 IT 工程 师 ， 所 以 笔者 并 未 深入 解 
说 那些 数据 科学 家 才能 看 懂 的 公式 证 明 过 程 ， 对 书 中 的 一 些 内 容 ， 也 只 停 

留 在 介绍 概要 的 程度 。 不 过 ， 本 书 中 提 到 了 很 多 应 用 程序 开发 者 关心 的 算 
法 和 技术 。 

在 本 书 的 写作 过 程 中 ， 使 用 深度 学 习 技 术 开发 的 各 种 应 用 程序 层 出 不 
穷 ， 所 以 很 多 信息 无 法 纳入 书 中 。 对 于 本 书 未 涉及 的 信息 ， 感 兴趣 的 读者 
可 以 参考 其 他 图 书 。 

希望 本 书 能 帮助 读者 理解 难度 较 大 的 图 书 内 容 和 技术 说 明 ， 引 导读 者 
进行 数据 分 析 。 

最 后 ， 感 谢 本 书 的 审 校 者 石井 一 夫 教 授 以 及 给 本 书 诛 稿 提出 宝贵 意见 
的 各 位 。 
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多 田 智 史 
2016 年 12 月 吉日 


INTRODUCTION 关 于 本 书 





口 内 容 简介 


本 书 是 一 本 兼顾 理论 和 技术 的 人 工 智 能 入 门 教材 ， 为 从 事 人 工 智 能 相 
关 产 品 和 服务 开发 的 I 工程 师 精心 筛选 了 技术 开发 必 备 的 知识 。 

本 书 通过 概念 图 与 实际 案例 ， 以 简单 易 懂 的 方式 对 人 工 智能 和 机 带 学 
习 、 深 度 学 习 、 物 联网 、 大 数据 之 间 的 关系 进行 了 说 明 。 


口 目标 读者 


本 书 的 目标 读者 是 从 事 人 了 

















[智能 相关 产品 和 服务 开发 的 IT 工程 师 ， 











如 程序 员 、 数 据 库 工程 师 、 艇 入 式 工程 师 等 。 此 外 ， 本 书 中 使 用 了 一 些 数 

















学 公式 ， 所 以 读者 需要 具备 一 定 程度 的 数学 知识 。 


口 下 载 文件 


读者 可 以 从 图 灵 社 区 本 书 主 页 下 载 示例 文件 。 





ituring.cn/book/1968 
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※ 本 书 9 





※ 本 书 在 出 版 时 尽 可 能 地 确保 了 内 容 的 正确 性 ， 但 对 运 





一 切 结果 ， 本 书 作 译 者 和 上 





出 现 的 网 址 可 能 会 发 生变 更 。 























本 书 内 容 或 示例 程序 的 








版 社 概 不 负责 。 





※ 本 书 中 出 现 的 示例 程序 、 
实例 。 
※ 本 书 
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脚本 以 及 运行 结果 画面 等 都 是 在 特定 环境 下 再 现 的 





























※ 本 书 内 容 基 于 2016 年 11 








执笔 时 的 情况 。 








出 现 的 系统 、 商 品名 分 别 是 各 公司 的 商标 及 注册 商标 。 


CONTENTS 目 录 



































第 
] 

并 人 工 智能 的 过 去 、 现 在 和 未 来 1 
01 ”人工 智能 2 
02 人 工 智 能 的 黎明 时 期 4 
03 人 工 智 能 的 发 展 9 

规则 系统 及 其 变 体 21 
01 规则 系统 22 
02 知识 库 26 
03 专家 系统 30 
04 推荐 引擎 37 

自动 机 和 人 工 生命 程序 43 
01 人 工 生命 模型 
02 有 限 自动 机 50 

















目录 | vii 






































03 马尔 可 夫 模 型 55 
04 状态 驱动 智能 体 59 
py 
L 
司 权重 和 寻找 最 优 解 65 
01 线性 问题 和 非 线性 问题 66 
02 回归 分 析 70 
03 加 权 回 归 分 析 78 
04 相似 度 的 计算 82 
py 
L 
司 权重 和 优化 程序 93 
01 图 论 94 
02 图 谱 搜 索 和 最 优化 98 
03 遗传 算法 106 
04 神经 网 络 114 
py 
i 恒信 黄 
司 统计 机 器 学 习 (概率 分 布 和 建 模 ) 125 
01 统计 模型 和 概率 分 布 126 

















02 贝 叶 斯 统计 学 和 贝 叶 斯 估计 i 

















到 解 人 工 智能 









































MCMC 方法 153 
HMM 和 贝 叶 斯 网 络 158 
统计 机 器 学 习 (无 监督 学 习 和 有 监督 学 习 ) 161 
无 监督 学 习 162 
有 监督 学 习 169 
强化 学 习 和 分 布 式 人 工 知 能 179 
集成 学 习 180 
强化 学 习 185 
迁移 学 习 193 
分 布 式 人 工 智能 197 
深度 学 习 199 
多 层 神经 网 络 200 
受 限 玻 尔 兹 曼 机 206 
深度 神经 网 络 208 
卷 积 神经 网 络 212 



















































































05 循环 神经 网 络 215 

py 
司 图 像 和 语音 的 模式 识别 219 
01 模式 识别 220 
02 特征 提取 方法 222 
03 图 像 识 别 230 
04 语音 识别 236 

ey 
司 自然 语言 处 理 和 机 器 学 习 243 
01 句子 的 结构 和 理解 244 
02 知识 获取 和 统计 语义 学 248 
03 结构 分 析 252 
04 文本 生成 255 
于 知识 表示 和 数据 结构 263 
01 数据 库 264 
02 检索 271 
03 语义 网 络 和 语义 网 277 








X | 图 解 人 工 智能 














第 
区 
加 分 布 式 计 算 


01 分 布 式 计算 和 并 行 计 算 


285 


286 





02 硬件 配置 

















287 














03 软件 配置 














293 





04 ”机 器 学 习 平 台 和 深度 学 习 平 台 


304 








第 
司 人 工 智能 与 海量 数据 和 物 联网 


01 数据 膨胀 


311 


312 





02 物 联网 和 分 布 式 人 工 智能 


317 





03 脑 功能 分 析 和 机 器 人 


322 





04 创新 系统 


327 





第 


1 人 工 智 能 的 过 去 、 
本 现在 和 未 来 




















过 去 人 们 对 人 工 智能 做 过 哪些 研究 ? 人 工 智 能 今后 又 将 走 
向 何方 ?本章 着 眼 于 人 工 智 能 整体 ， 在 全 书 中 起 着 提纲 者 
领 的 作用 。 























第 1 章 ”| 人 工 智能 的 过 去 、 现 在 和 未 来 


人 工 智 能 





人 工 智 能 在 很 多 领域 得 到 应 用 。 本 节 ， 笔 者 将 对 普遍 意义 上 的 人 工 智 
能 进行 说 明 。 


特 人 工 智能 已 遍布 街头 巷 尾 

近年 来 ,大量 与 人 工 智能 有 关 的 图 书 出 版 ， 信 息 量 逐渐 膨胀 。 一 些 书 
也 给 出 了 人 工 智 能 的 定义 ， 这 些 定义 本 身 并 无 对 错 之 分 ， 因 为 每 个 人 对 人 
工 智能 的 理解 不 尽 相 同 。 

以 模式 识别 为 代表 的 程序 是 从 什么 时 候 开 始 进入 智能 时 代 的 ? 对 于 这 
个 问题 的 答案 ， 每 个 人 都 有 自己 的 理解 ， 理 解 方式 也 因 时 代 而 异 ， 而 且 在 
未 来 也 可 能 会 发 生变 化 。 

那么 ， 人 工 智能 到 底 是 什么 呢 ? 

我 们 可 以 把 人 工 智能 理解 为 “人 为 地 使 设备 或 软件 模仿 人 类 的 行为 ”。 
在 此 基础 上 发 展 而 来 的 设备 能 够 根据 程序 独立 进行 判断 。 另 外 ， 人 工 智能 
还 包括 设备 按照 自己 的 意志 采取 某 种 行动 的 情况 )。 























人 工 智能 = 人 为 地 使 设备 或 软件 模仿 人 类 的 行为 


设备 能 够 根据 程序 独立 进行 判断 ， 6 9) 
按照 自己 的 意志 采取 某 种 行动 









































人 工 智能 
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人 工 智能 本 身 并 没有 生物 学 方面 的 含义 ， 在 过 去 的 人 工 智 能 热潮 中 也 
不 曾 涉及 生物 学 。 

过 去 ， 在 表现 某 种 智能 行动 方面 ， 人 工 智能 的 实现 方法 和 生物 智能 完 
全 不 同 。 人 工 智 能 实际 输出 的 ， 也 就 是 最 终 呈 现在 我 们 面前 的 ， 是 自动 控 
制 的 结果 ( )。 





























自动 控制 ， 把 指定 颜色 的 物体 放 到 相同 颜 

















自动 控制 的 典型 示例 


人 工 智能 随 着 时 代 的 变化 而 发 展 。 例 如 ， 在 计算 机 出 现 的 早期 ， 简 单 
的 条 件 分 支 就 是 自动 控制 的 主要 功能 ， 而 现在 ， 即 便 应 用 了 复杂 的 理论 ， 
有 些 程序 也 无 法 称 为 人 工 智能 (国生 )- 



























































尽管 如 此 还 是 不 够 





人 工 智能 和 自动 控制 的 关系 
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人 工 智 能 的 黎明 时 期 





人 工 智能 诞生 的 时 代 背 景 是 什么 ? 工程 师 是 如 何 转向 人 工 智 能 领域 
的 ? 本 节 ， 笔 者 将 讲解 人 工 智 能 的 黎明 时 期 。 


二 人 工 智能 的 诞生 

1956 年 的 达 特 茅 斯 会 议 上 首次 出 现 了 人 工 智 能 一 词 。 再 往 前 追溯 10 
年 ， 英 国 的 艾 伦 : 麦 席 森 . 图 灵 (Alan Mathison Turing ) 对 人 工 智能 的 发 
展 做 出 了 诸多 贡献 。 他 的 名 字 也 通过 图 灵 测 试 (the turing test ) 和 图 灵机 
( turing machine ) 流传 至 今 。 

图 灵 在 1950 年 发 表 了 论文 《计算 机 器 与 智能 》 。 在 这 篇 论文 中 ,他 对 
人 工 智 能 的 发 展 与 人 工 智能 的 哲学 进行 了 深刻 的 讨论 。 事 实 上 ， 图 灵 早 在 
1940 年 左右 就 已 经 开始 了 对 机 带 和 智能 的 深入 人 研究 。 

在 数学 和 计算 机 科学 理论 得 到 发 展 的 同时 ， 生 理学 领域 的 研究 也 取 
得 了 很 大 的 进展 。 整 合 了 生理 学 、 机 械 工 程 和 控制 工程 的 控制 论 (参考 
而 ) 有 了 重大 突破 。 把 cyber” 译 为 计算 机 就 是 因为 控制 论 (cybernetic ) 


这 个 词 









































PE {lit 


cybernetic 一 词 源 自 希 腊 语 ， 意 思 是 舵手 。 





























在 生理 学 领域 ， 支 撑 神 经 网 络 算法 的 基础 研究 可 分 成 两 大 类 ，。 





四， 原 论文 名 为 “Computing Machinery and Intelligence”。 一 一 译 者 注 
@ cyber 现在 作为 前 级 ， 代 表 与 互联 网 相关 或 计算 机 相关 的 事物 ， 即 采用 电子 工具 或 
计算 机 进行 的 控制 。 译 者 注 








第 1 章 ， 人 工 智能 的 过 去 、 现 在 和 未 来 | 5 














第 一 类 是 all-or-none 型 的 信息 传递 模型 ”的 相关 理论 。 








第 二 类 是 提倡 突 触 可 塑性 ( synaptic plasticity ) 的 赫 布 理论 ( 或 赫 布 
定律 )。 
口 突 触 可 塑性 








突 触 可 塑性 是 指 在 通过 突 触 传递 神经 递 质 时 ， 突 触 的 连接 强度 会 因 神 
经 递 质 活动 的 强 弱 而 改变 的 特性 ( )。 特 别 是 在 儿童 的 发 育 过 程 中 ， 
突 触 可 塑性 被 认为 与 记忆 和 学 习 紧 密 相 关 。 这 些 发 现 对 人 工 智能 的 研究 也 
产生 了 影响 。 

















神经 弟 质 “@@@e 411 神经 递 质 “ 鲁 


连接 强度 加 大 连接 强度 减弱 





突 触 可 塑性 

当时 刚 出 现 的 电子 计算 机 以 “辅助 和 代替 人 类 ”为 目的 ， 除 了 进行 科 
学 计算 ， 还 会 对 内 容 进 行 判 断 。 

最 初 的 人 工 智能 程序 通过 二 分 类 的 堆 琶 来 输出 自动 判断 结果 ( )。 

















中 出 自 沃 伦 . 麦 卡 洛克 和 沃尔特 皮 茨 所 著 的 论文 “A logical calculus of the ideas 
immanent in nervous activity”。 其 实 就 是 M-P 模型 ， 它 是 一 种 利用 神经 元 网 络 对 信 
息 进行 处 理 的 数学 模型 。 译 者 注 
































维 平面 上 的 数据 表示 


























决策 树 


人 工 智 能 和 图 灵 测 试 


既然 机 器 根据 计算 结果 给 出 答案 的 目的 是 代替 人 类 ， 那 么 我 们 必然 会 
质疑 这 个 答案 到 底 是 由 人 还 是 由 机 融 给 出 的 。 
每 个 人 都 会 犯错 误 ， 而 机 器 按照 人 类 制定 的 条 件 判断 标准 来 运行 ， 所 以 
机 器 也 会 犯错 误 。 有 观点 认为 “机 器 的 判断 是 正确 的 "， 但 我 们 必须 明确 这 种 
观点 成 立 的 前 提 是 “对 程序 的 性 能 进行 测试 后 ， 结 果 在 合理 的 范围 内 ”。 
例如 ， 飞 机 的 飞行 自动 控制 系统 现在 基本 按照 传感器 的 指示 进行 操 
作 ， 由 人 类 进行 判断 有 时 反而 会 发 生 事故 ( )。 


人 为 错误 导致 的 事故 动 控制 系统 的 无 故障 轰 






































人 


人 为 错误 和 自动 驾驶 
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加 





在 人 工 智能 研究 的 初期 阶段 ， 机 器 只 能 在 有 限 的 范围 内 进行 判断 和 
答 ， 但 图 灵 认 为 终 有 一 天 ， 机 器 代替 人 类 给 出 的 回答 将 无 法 与 人 类 自身 的 
回答 区 分 开 来 。 简 单 来 说 ， 就 是 机 器 具备 了 思考 的 能 力 。 这 些 都 反映 到 了 
图 灵 测 试 中 。 

图 灵 把 图 灵 测 试 中 的 问题 换 成 了 “机 右 能 否 实现 人 类 的 行为 ( 思考 
行为 》。 











吕 图 灵 测 试 

图 灵 测 试 的 过 程 如 下 所 示 。 

测试 者 分 别 与 一 个 人 和 一 台 机 器 进行 对 话 ， 如 果 测 试 者 不 能 确定 对 方 
是 人 还 是 机 器 ， 那么 这 台 机 器 就 通过 了 测试 ( ), 























图 灵 测 试 


将 测试 者 与 被 测试 者 隔离 ， 为 了 避免 机 融 的 声音 影响 测试 结果 ， 测 试 
者 只 通过 键盘 和 显示 器 等 设备 以 文字 形式 向 被 测试 者 提问 ， 然 后 判断 对 方 
是 人 还 是 机 融 。 

在 2014 年 的 图 灵 测 试 大 会 上 ， 一 台 俄罗斯 的 超级 计算 机 伪装 成 13 岁 
的 男孩 ， 回 答 了 测试 者 输入 的 所 有 问题 。 其 中 有 33% 的 测试 者 认为 与 自 
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己 对 话 的 是 人 而 非 机 器 ， 这 台 计 算 机 也 成 为 有 史 以 来 首 台 通过 图 录 测 试 的 
计算 机 。 在 此 之 前 人 类 已 经 开发 了 各 种 各 样 的 人 工 智 能 程序 ， 其 中 最 接近 
图 灵 测 试 合格 标准 的 是 ELIZA (1966 年) 和 PARRY (1972 年 )。 两 个 程 
序 都 模仿 了 特定 的 人 群 。ELIZA 模仿 的 是 心理 治疗 师 ，PARRY 模仿 的 是 
亡 想 型 精神 分 裂 症 患者 。 

关于 上 述 内 容 ， 我 们 需要 注意 的 是 ， 图 灵 测 试用 于 测试 机 器 模仿 人 类 
行为 的 能 力 ， 它 不 一 定 能 测试 出 机 器 是 否 具 有 掌控 思维 的 能 力 。 例 如 ， 对 
于 在 解决 需要 具备 创新 能 力 的 课题 时 所 采取 的 智能 行为 ， 图 灵 测 试 就 无 法 
奏效 了 。 另 外 ， 如 果 机 器 没有 像 人 一 样 给 出 反应 ， 即 使 它 再 “智能 ”， 也 
无 法 通过 测试 。 






























































人 工 智能 领域 发 生 了 很 多 里 程 碑 事 件 。 下 面 ， 我 们 来 看 看 人 工 智能 的 
历史 发 展 过 程 ( )。 


1960 ~ 1980 年 : 
专家 系统 和 第 一 次 人 工 智能 热潮 








1980 ~ 2000 年 : 
第 二 次 人 工 智 能 热潮 和 神经 网 络 的 寒冬 期 


2010 年 以 后 : 
深度 神经 网 络 带 来 图 像 识 别 性 能 的 飞跃 性 提高 ， 
次 人 工 智 能 热潮 





1960 ~ 2010 年 的 人 工 智能 历史 


区 1960 一 1980 年 : 专家 系统 和 第 一 次 人 工 智 能 热潮 





20 世纪 50 年 代 以 来 ， 基 于 使 用 了 多 个 条 件 分 支 的 自动 判断 程序 ， 搭 
载 了 推理 机 的 问题 处 理 系统 相继 问世 。 专 家 系统 就 是 其 中 之 一 ， 程 序 内 部 
包含 专家 (expert ) 提供 的 知识 与 经 验 。 
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早期 开发 的 专家 系统 DENDRAL 能 够 利用 物质 的 质谱 分 析 结 果 ， 来 
识别 有 机 化 合 物 的 分 子 结构 ( 参照 )。 ee 智能 
热潮 

















Jo 


| 小 二 | DENDRAL 


DENDRAL 是 由 斯 坦 福 大 学 的 爱德华 费 根 鲍 姆 ( Edward Alpert Feigenbaum ) 
教授 等 人 于 1965 年 开始 开发 的 专家 系统 。 该 专家 系统 能 像 化 学 家 一 样 工 作 ， 即 使 
质谱 分 析 法 分 析 未 知 的 有 机 化 合 物 的 质谱 实验 数据 ， 并 判断 出 该 有 机 化 合 物 的 
子 结构 。DENDRAL 是 世界 上 第 一 个 专家 系统 。 


































































































在 专家 系统 的 基础 上 ， 当 时 相当 于 人 工 智能 的 自动 判断 处 理 程序 又 得 
到 了 进一步 发 展 。 

随 着 人 工 智能 热潮 的 出 现 ， 人 工 智能 框架 问题 ( 参照 四 ) 也 不 可 
避免 地 成 了 人 们 讨论 的 焦点 。 框 架 问 题 是 约翰 麦卡锡 (John McCarthy ) 
和 帕特里克 ' 海 耶 斯 ( Patrick J. Hayes ) 于 1969 年 提出 的 。 在 信息 有 限 的 
情况 下 ， 程 序 筛选 所 需 信 息 的 计算 量 非 常 庞大 ， 这 就 导致 原本 可 以 解决 的 
问题 变 得 无 法 解决 一 一 即便 在 当下 ， 这 个 问题 也 很 难 找到 一 个 有 效 的 解决 
方法 5 

在 20 世纪 70 年 代 ， 专 家 系统 被 引入 制造 系统 。 由 此 问世 的 医疗 专家 
系统 MYCIN (参照 OO ) 等 开始 试 运行 。 
























































Egg | “小 贴 十 | MYCIN 
能 在 





















































MYCIN 系统 是 在 20 世纪 70 年 代 由 布 
有 限 范围 内 处 斯 . 布 坎 南 ( Bruce Buchanan ) 和 爱德华 ， 
理 信息 的 机 器 人 无 法 处 肖 特 利夫 ( Edward Shortliffe ) 开发 的 专家 系 
理 所 有 实际 发 生 的 问题 。 统 。 该 专家 系统 由 DENDRAL 衍生 而 来 。 


























汤 1980 一 2000 年 : 第 二 次 人 工 智能 热潮 和 神经 网 络 的 寒冬 期 








进入 20 世纪 80 年 代 后 ， 随 着 计算 机 硬件 成 本 的 不 断 下 降 ， 复杂 的 大 
规模 集成 电路 得 以 实现 ， 计 算 机 的 计算 能 力 由 此 实现 指数 级 增长 。 这 就 
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摩尔 定律 (参照 ERE )。 


1965 年 ， 美 国 英特尔 公司 的 戈 登 . 摩尔 ( Gordon Moore ) 在 他 的 论文 中 指 
出 ， 大 规模 集成 电路 上 可 容纳 的 元 器 件数 量 每 隔 18~24 个 月 便 会 增加 一 倍 。 



















































































随 着 集成 电路 上 可 容纳 的 元 器 件数 量 的 增加 ， 计 算 机 的 存储 区 域 持续 
呈 爆 炸 式 增长 ， 主 存储 器 中 可 存储 的 数据 类 型 越 来 越 多 样 化 。 人 工 智能 领 
域 的 研究 也 因此 受益 ， 并 发 展 到 以 国家 为 主导 的 持续 提升 计算 机 计算 能 力 
的 阶段 。 人 工 智能 迎 来 第 二 次 热潮 。 

在 此 期 间 ， 神 经 网 络 也 得 到 了 快速 发 展 。20 世纪 60 年 代 提 出 的 单 
层 感知 需 因 为 无 法 处 理 非 线性 分 类 问题 而 陷入 低 谷 ， 由 多 个 感知 咒 〈 参照 
JE ) 堆 受 组 成 的 多 层 感知 器 则 解决 了 非 线性 分 类 问题 。 

但 随后 ， 因 计算 机 性 能 方面 的 限制 ， 第 二 次 人 工 智能 热潮 遇 到 了 撼 
有 贷 。 自 20 世纪 90 年 代 开 始 ， 人 工 智 能 的 研究 陷入 低谷 。 这 一 时 期 又 称 为 
人 工 智 能 的 寒冬 期 。 


和 成 知 吉 


感知 器 由 弗兰克 罗 森 布 拉 特 ( Frank Rosenblatt ) 于 1957 年 提出 ， 是 一 种 
人 工 神经 元 和 神经 网 络 。 











































































































志 2000 一 2010 年 : 统计 机 器 学 习 方 法 和 分 布 式 处 理 技 术 的 发 展 








以 20 世纪 80 年 代 发 展 起 来 的 神经 网 络 ( 参照 IEE ) 为 基础 的 人 工 
智能 人 研究， 虽然 在 后 期 陷入 了 低谷 , 但 是 基于 统计 模型 的 机 器 学 习 算法 等 
20 世纪 90 年 代 ， 基 于 贝 叶 斯 定理 ( 参照 由 ) 的 贝 叶 斯 统计 学 被 
重新 定义 。21 世纪 以 后 ， 开 始 出 现 了 使 用 贝 叶 斯 过 滤器 的 机 器 学 习 系 统 ， 
并 逐渐 普及 ( )。 贝 叶 斯 过 滤器 的 典型 应 用 示例 就 是 垃圾 邮件 过 滤 
系统 。 除 此 之 外 ， 它 还 可 用 于 语音 输入 系统 中 的 降 品 和 语音 识别 处 理 。 











汝 
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peel) -AD 


朴素 贝 叶 斯 分 类 器 




















ER 
一 一 加 
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贝 叶 斯 定理 和 贝 叶 斯 过 滤器 


和 3 中 时 其 定理 



























































贝 叶 斯 定理 是 皮 埃 尔 - 西蒙 . 拉 普 拉 斯 
| “小 贴 十 | 神经 网 络 ( Pierre-Simon marquis de Laplace ) 提出 的 
关于 条 件 概率 成 立 的 定理 。 对 于 通常 情况 下 的 
神经 网 络 的 作用 在 于 概率 和 条 件 概率 ， 下 面 的 恒等式 成 立 。 
参考 人 脑 ， 通过 计算 机 仿 P(A|B)P(B) 
真 方法 模拟 其 部 分 功能 。 2 PI I 

















使 用 统计 学 方法 解决 的 课题 可 以 分 为 两 大 类 : 分 类 和 预测 。 机 器 学 习 利 
用 程序 自动 计算 输入 数据 ， 以 此 来 推导 特征 值 ， 实 现 分 类 和 预测 的 功能 
( )。 在 多 数 情况 下 ， 这 些 特征 值 还 需要 数据 科学 家 检测 它们 的 构成 
要 素 和 贡献 率 并 进行 深入 分 析 ， 不 过 我 们 也 可 以 通过 构建 模型 使 处 理 自动 化 。 











把 数据 转换 成 机 器 学 习 可 以 使 用 的 格式 后 ， 提 取 特 征 值 





机 器 学 习 的 典型 功能 : 分 类 和 预测 


机 融 学 习 的 应 用 示例 包括 推 


的 异常 检测 系统 。 
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荐 引擎 ， 以 及 使 用 了 日 志 数 据 及 在 线 数据 





20 世纪 90 年 代 后 期 ， 随 着 互联 网 的 普及 ， 多 媒体 数据 等 大 容量 数据 


的 应 用 变 得 越 来 越 广泛 茵 于 夺目 )。 因 此 ， 提 高 





效率 的 需求 应 运 而 生 o 









































攻 国 国 避 黑白 二 色 一 16 色 一 256 色 一 1677 万 色 的 图 画 和 动画 








图 像 数 据 和 音频 数据 处 理 





FPGA (Field-Programmable Gate Array， 现 场 可 编程 门 阵列 ) 等 府 人 
式 技术 可 以 迅速 实现 视频 等 多 媒体 数据 的 压缩 和 转换 等 处 理 ， 但 是 需要 根 


据 处 理 对 象 的 内 容 进 行 优化 ， 这 





需要 我 们 另行 学 习 。 





为 了 灵活 处 理 数 据 ， 过 去 人 们 使 用 的 ， 
计算 机 (超级 计算 机 ) 所 提供 的 分 布 式 计算 环境 。 但 2000 年 以 后 出 现 了 
OpenMP (参照 ) 和 与 GPGPU ( General-Purpose computing on Graphics 
Processing Units， 通 用 图 形 处 理 器 ) 相关 的 技术 CUDA ( Compute Unified 
Device Architecture， 统 一 计算 设备 架构 )， 


异 构 计算 环境 ， 像 计算 机 一 样 可 以 


EE OpenMP 























OpenMP 是 进行 








与 按照 指令 执行 的 分 布 式 处 理 机 制 一 样 ， 





行 处 理 





的 基础 。 





与 面向 普通 计算 机 CPU 的 编程 方法 不 同 ， 

















是 用 于 科学 计算 等 领域 的 天 型 








它们 提供 的 是 多 核 计算 环境 和 


些 软件 


日 个 人 来 操作 〈 当时 还 比较 昂贵 )。 











1 也 添加 了 分 布 式 











处 理 的 管理 机 制 。 例 如 Google 以 Google 文件 系统 (Google File System ) 





14 到 解 人 工 智能 




















为 开端 开发 的 MapReduce 架构 〈 )， 还 有 Yahoo! 在 MapReduce 的 
基础 上 开发 的 Hadoop。 分 布 式 系 统 不 仅 可 以 为 每 个 任务 预定 义 计算 资源 ， 
还 能 通过 网 络 线路 进行 任务 管理 ， 所 以 能 够 随意 地 增 减 资源 。 


Map 处 理 Reduce 处 理 





区 本 妇 MapReduce 架构 





从 2005 年 左右 开始 ， 高 效 的 分 布 式 处 理 和 摩尔 定律 所 带 来 的 计算 机 
硬件 的 性 能 提升 推动 了 神经 网 络 研 究 的 再 次 兴起 。 

2006 年 ， 随 着 自 编码 器 ( 参照 BO ) 的 出 现 ， 人 工 智能 的 发 展 进 
入 了 深度 学 习 (参照 四) 时 代 。 

深度 神经 网 络 ( Deep Neural Network，DNN ) 是 一 种 支持 深度 学 习 的 
多 层 神 经 网 络 。 当 时 ， 超 过 5 层 的 神经 网 络 就 称 为 深度 神经 网 络 ， 因 为 受 
到 计算 机 性 能 的 限制 ， 很 难 构建 更 多 的 层 。 到 了 2010 年 以 后 ， 就 已 经 能 
构建 出 100 多 层 的 深度 神经 网 络 了 。 








和 自 编码 器 了 3 深度 学 习 

自 编码 器 是 在 2006 年 深度 学 习 指 计算 机 程序 通过 学 习 各 
有 。 辛 顿 ( Geoffrey Hinton ) 提 种 数据 的 特性 ， 对 数据 进行 分 类 和 判 
风 一 种 使 用 神经 网 络 进行 数据 维 别 。 深 度 学 习 的 概念 最 初 由 辛 顿 等 人 提 
压缩 的 算法 ， 可 在 机 器 学 习 中 使 用 。 出 ， 现 在 的 深度 学 习 远 比 当时 的 复杂 。 
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霹 2010 年 以 后 : 深度 神经 网 络 带 来 图 像 识 别 性 能 的 飞跃 性 提高 ， 第 


三 次 人 工 智 能 热潮 


以 前 ， 在 图 像 识 别 精度 方面 ， 基 于 统计 模型 的 机 器 学 习 要 优 于 基于 神 
经 网 络 的 机 器 学 习 ， 但 在 某 个 阶段 之 后 ， 这 种 优势 出 现 了 丰 覆 性 的 首 转 。 
最 典型 的 示例 就 是 2012 年 ImageNet 大 规模 视觉 识别 挑战 赛 ILSVRC 2012 
(IMAGENET Large Scale Visual Recognition Challenge ) 的 图 像 分 类 任务 。 
加 拿 大 多 伦 多 大 学 团队 开发 的 基于 深度 学 习 的 图 像 识 别 算法 摘 得 桂冠 
(BEE ). 



































IMAGENET Large Scale Visual Recognition Challenge 2012 (ILSVRC2012) 
Held in conjunction with PASCAL Visual Object Classes Challenge 2012 (VOC2012) 


Back fo Main page, 


Task 1 








ey Using xtra training data 
多 伦 多 大 学 团队 an 1 fiom ImageNetFal 201 


testpre 
137-145-146.2011.145f 


test-preds-131-137-145-135- 
lest-preds-131-137-145-135 eli 
ttt 


Using only supplied 
1451 training data 








东京 大 学 团队 


fror ifier with 
pred_FVs_wWLACs_weighted tdt SIFT+FV LBP+FV, 














ILSVRC 2012 的 图 像 分 类 任务 结果 


和 第 三 名 东京 大 学 团队 使 用 的 统计 机 器 学 习 算 法 相 比 ， 多 伦 多 大 学 团 
队 使 用 的 深度 学 习 算 法 将 错误 识别 率 降 低 了 10%， 在 业界 引起 艇 动 。 人 类 
的 错误 识别 率 约 为 5%， 而 在 2015 年 出 现 了 错误 识别 率 低 于 5% 的 算法 。 

基于 深度 学 习 的 图 像 识 别 算法 的 有 效 性 迅速 得 到 认可 。 人 们 建立 大 型 
数据 库 来 存储 图 像 和 元 数据 之 间 的 关联 ， 并 提供 给 用 户 使 用 ， 因 此 在 汽车 
上 装载 图 像 识别 引擎 的 研究 也 逐渐 活跃 起 来 ( 国 莉 国 加 )。， 除 了 网 像 识别 领 
域 ,深度 学 习 在 语音 识别 领域 和 自然 语言 处 理 领 域 也 取得 了 一 定 成 效 ， 逐 
渐 被 应 用 到 聊天 机 器 人 程序 中 。 
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到 像 识别 引擎 

















图 像 识别 引擎 的 应 用 领域 


壤 加 速 产业 上 的 应 用 





马 汽车 产业 
快速 发 展 的 人 工 智能 研究 已 经 在 各 个 产业 中 得 到 应 用 ， 其 中 包括 从 

















20 世纪 开始 成 为 日 本 支柱 产业 之 一 的 汽车 产业 。 特 别 是 在 图 像 识别 领域 ， 
人 工 智能 作为 自动 移 驶 技术 必 不 可 少 的 要 素 之 一 受到 重视 。 以 往 主要 推进 
的 是 除 图 像 识别 以 外 的 汽车 内 置 传感器 和 坦 人 式 道路 传感器 装置 等 基础 设 
施 一 体 机 的 开发 ， 后 来 图 像 识别 精度 的 提高 使 汽车 产业 取得 了 飞跃 性 的 发 
。 今 后 我 们 将 不 再 局 限于 从 单 台 车 辆 获得 数据 ， 而 是 收集 多 台 车 辆 的 加 
速度 传感器 采集 的 数据 ， 预 测 全国 范 围 的 交通 量 ， 收 集 事故 多 发 路 段 的 信 
息 ， 然 后 通过 大 数据 分 析 ， 不 断 推动 自动 驾驶 的 实现 。 






























































口 广告 产业 
目前 很 多 网 站 使 用 基于 机 器 学 习 的 推荐 系统 ， 向 网 站 用 户 推送 相关 广 
告 和 新 闻 ， 以 及 优化 广告 投放 。 

我 们 可 以 把 其 中 的 推荐 引擎 理解 为 机 器 学 习 所 做 的 预测 结果 。 为 了 更 
加 有 效 地 对 用 户 进行 推荐 ， 除 用 户 访问 的 网 站 之 外 ， 购 物 网 站 的 推荐 引擎 
还 会 利用 用 户 的 购买 记录 等 信息 构建 统计 模型 ， 实 现 有 效 推荐 。 

另外 ， 网 站 上 显示 的 相关 信息 也 是 推荐 引擎 的 一 种 处 理 形 态 。 在 对 主 
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要 内 容 和 相关 内 容 进行 信息 的 相似 度 分 析 ， 并 根据 相似 度 来 判断 如 何 有 效 
利用 或 限制 这 些 信 息 ( 相同 的 话题 没有 意义 ， 但 也 不 能 过 度 偏离 )， 以 及 
如 何 最 大 程度 提升 用 户 回 流 率 (引导 用 户 访 问 网 站 和 促进 用 户 购 买 ) 方 
面 ， 优 化 处 理 显得 尤为 重要 。 

广告 产业 对 系统 的 要 求 是 提供 有 效 的 广告 时 间 策 略 以 及 呈现 高 度 相关 
的 内 容 。 预 计 今后 包括 深度 学 习 在 内 的 机 器 学 习 算 法 会 在 构建 此 类 系统 方 
面 逐步 得 到 应 用 。 另 外 ， 开 发 出 既 能 处 理 文本 和 数值 数据 ， 又 能 涵盖 图 
像 、 视 频 和 音频 等 多 媒体 数据 (原始 数据 ， 而 非 艺 术 家 的 名 字 等 标签 或 类 
别 ) 资源 的 推荐 引 敬 ， 将 有 助 于 提高 推荐 内 容 与 用 户 喜好 的 匹配 度 。 



























































了 BI 工具 

企业 在 制定 经 营 战略 时 必须 预测 销售 额 和 利润 。 在 此 过 程 中 ，BI 
(Business Intelligence， 商 业 智 能 ) 工具 不 可 或 缺 。 最 初 的 BI 工具 可 以 追 
漳 到 20 世纪 70 年 代 的 计算 机 辅助 决策 支持 系统 。 

随 着 可 处 理 数 据 量 的 增加 和 计算 机 处 理 能 力 的 提高 ， 再 加 上 为 了 迎合 
企业 需求 ，BI 工 具 的 预测 准确 率 越 来 越 高 。 

缩短 统计 周期 是 BI 工具 的 一 个 典型 特征 。 在 商品 的 库存 管理 方面 ， 
很 重要 的 一 点 就 是 最 大 限度 地 降低 库存 数量 。 在 根据 过 去 的 走势 预测 未 来 
的 变化 趋势 时 ， 如 果 预 测 周 期 较 长 ， 预 测 结果 就 容易 出 现 偏差 ， 所 以 要 尽 
量 缩短 预测 周期 并 反复 进行 预测 。 因 此 ， 原 来 主要 的 处 理 方式 是 批 处 理 ， 
但 如 今 在 线 处 理 和 流 处 理 的 重要 性 急剧 提升 。 

另 一 方面 ， 预 测 涉及 的 数据 对 象 趋 于 多 样 化 。 除 地 理 特征 、 人 口 系统 
动态 特性 和 社会 心理 特征 以 外 ， 所 在 地 区 的 天 气 、 气 温 、 附 近 的 交通 量 等 
信息 也 是 影响 预测 的 重要 因素 。 我 们 需要 从 海量 数据 中 提取 关联 度 较 高 的 
言 息 并 进行 预测 ， 所 以 机 器 学 习 算 法 起 着 非常 重要 的 作用 。 

过 去 靠 个 人 经 验 所 做 的 预测 已 经 通过 信息 处 理 实现 了 机 械 化 。 进 入 21 
世纪 后 ， 开 发 者 利用 Google Prediction API 开发 了 基于 贝 叶 斯 网 络 的 缺失 数 
据 预测 程序 。 后 来 ， 用 户 可 以 通过 Google BigQuery 上 传 大 量 数据 进行 分 
析 并 很 快 得 到 分 析 结 果 。 另 外 ， 硬 件 系统 的 性 能 也 得 到 提升 ， 具体 表现 为 
Apache Hadoop 和 Apache Spark 等 大 规模 分 布 式 处 理 技术 的 灵活 应 用 等 。 
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将 来 ,我 们 会 开发 出 更 多 的 系统 来 完成 一 直 以 来 由 人 类 实施 的 处 理 。 
比如 ， 通 过 改善 机 器 学 习 算法 来 有 效 检索 各 种 类 型 的 信息 ， 同 时 进行 数据 
清洗 和 稀 玻 数据 处 理 等 。 相 信 这 些 系统 的 开发 能 大 大 促进 技术 进步 。 























品 对 话 式 人 工 智能 

2000 年 前 后 ， 在 对 话 式 人 工 智能 领域 ， 聊 天 机 器 人 等 机 器 人 程序 大 
受 欢 迎 。 这 些 聊天 机 器 人 虽然 制作 精良 ， 但 只 能 用 来 取悦 用 户 ， 缺 乏 实用 
性 。 具 备 实用 性 的 聊天 机 器 人 并 没有 通过 机 器 学 习 等 高 级 算法 来 实现 ， 而 
是 用 了 会 提示 用 户 按 照 流 程 图 输入 信息 的 系统 。 前 面 介 绍 了 广告 产业 中 主 
题 模型 的 发 展 ， 随 着 这 些 自然 语言 处 理 模 型 在 性 能 方面 的 提升 ， 机 器 人 程 
序 得 到 改良 ， 与 人 自然 地 进行 对 话 成 为 可 能 。 当 然 ， 翻 译 技术 的 发 展 也 做 
出 了 很 大 贡献 。 再 加 上 2005 年 以 后 计算 机 资源 的 扩展 ， 大 量 的 文本 数据 
处 理 及 特征 提取 得 以 实现 ， 文 本 特征 表示 模型 终于 建立 。 这 也 是 机 器 人 能 
够 自然 与 人 对 话 的 一 个 主要 原因 。 

例如 ,微软 于 2015 年 发 布 的 小 冰 ” 就 通过 深度 学 习 技 术 逐 渐 实现 了 近 
乎 自然 的 人 机 对 话 。 

在 2015 年 至 2016 年 ， 一 些 大 型 SNS 网 站 向 开发 者 开放 了 用 于 开发 
聊天 程序 的 API。 预 计 今后 自然 语言 处 理 领域 的 对 话 式 人 工 智 能 在 商业 上 
的 实用 性 会 越 来 越 高 。 


IBM 公司 开发 的 超级 计算 机 沃 森 ( Watson ) 包含 利用 了 深度 学 习 的 系统 。 
与 其 他 系统 不 同 ， 沃 森 使 用 的 是 认 知 计算 ( cognitive computing ) 系统 。 认 知 
计算 系统 的 价值 体现 在 通过 自然 语言 处 理 进行 人 机 对 话 和 提供 决策 支持 上 。 

下 面 我 们 来 看 一 下 沃 森 在 医疗 领域 的 应 用 。 

近 几 年 ， 随 着 研究 水 平 的 不 断 提高 以 及 参与 研究 的 国家 和 机 构 的 不 断 
增多 ， 学 术 领 域 分 类 越发 细 化 ， 论 文 发 表 数 量 多 到 医生 无 法 消化 的 程度 。 
人 们 期 待 沃 森 能 起 到 辅助 诊疗 的 作用 ， 具 体 来 说 就 是 让 沃 森 读 取 大 量 的 医 
































































































































































































































中 微软 发 布 的 人 工 智能 聊天 机 器 人 ， 中 国 版 为 小 冰 ， 日 本 版 为 Rinna ( A 太 )， 美国 
版 为 Tay。 译 者 注 
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学 文献 ， 根 据 患 者 症状 ， 列 出 疾病 的 相关 信息 以 及 适用 的 药物 和 治疗 方案 。 
特别 是 针对 癌症 和 心脏 病 等 常见 疾病 ， 时 常会 有 新 的 论文 发 表 或 者 有 

来 自 监管 部 门 的 指示 。 因 此 ， 如 何 与 医生 及 其 他 医务 人 员 顺 利 合作 ， 如 何 

与 当局 的 规定 进行 比较 调整 ， 都 是 未 来 我 们 需要 重视 的 地 方 。 

机 器 学 习 的 应 用 案例 还 包括 影像 诊断 中 癌症 的 早期 发 现 、 使 用 了 腕 市 

式 测 量 设备 的 健康 管理 系统 等 。 随 着 技术 的 进一步 发 展 ， 今 后 或 许 能 在 全 

国 范围 内 实现 基于 个 人 数据 的 私人 定制 医疗 服务 。 


在 机 器 人 领域 ， 包 括 机 器 学 习 在 内 的 人 工 智 能 研究 也 得 到 了 有 效 利 
用 。 在 汽车 产业 中 ， 人 工 智能 的 研究 成 果 可 作为 交通 工具 来 使 用 ， 而 在 机 
器 人 领域 则 可 作为 人 类 的 助手 ， 辅 助 移动 身体 ， 或 替代 人 类 完成 某 些 工 
作 。 机 器 人 虽然 能 够 最 大 限度 完成 其 擅长 的 重 物 搬运 等 工作 ， 可 一 旦 迅速 
转换 到 它 不 擅长 的 精细 作业 ， 就 有 些 捉襟见肘 了 。 要 让 机 器 人 像 人 类 一 样 
自然 地 工作 ， 还 是 有 一 定 难度 的 。 

为 了 解决 这 个 问题 ， 人 们 长 期 以 来 致力 于 开发 一 种 能 够 通过 自主 学 习 来 
实现 自我 控制 行动 的 人 脑 计算 机 。 预 计 未 来 还 会 在 开发 中 引入 强化 学 习 算法 。 

除 此 之 外 ， 机 器 人 未 来 也 可 能 在 儿童 益 智 玩具 和 老年 人 生活 文 援 服务 
等 领域 得 到 应 用 。 生 活 支援 的 范围 很 大 ， 除 食材 管理 和 根据 气候 变化 提出 
行动 方案 之 外 ， 还 包括 预防 阿尔 欧 海 默 病 。 我 们 知道 ， 未 来 日 本 国内 的 劳 
动力 人 口 会 持续 下 降 ， 人 工 智 能 研究 除了 用 于 辅助 年 轻 人 的 工作 ， 在 如 何 
保障 老年 人 的 健康 生活 ， 以 及 在 健康 状况 不 佳 时 如 何 保证 生活 质量 
( Quality OfLift，QOL ) 等 方面 ， 都 有 非常 重要 的 作用 。 











































































































































































































人 工 智能 在 未 来 是 否 会 拥有 意识 ， 现 在 我 们 还 不 得 而 知 。 但 是 ， 很 多 
研发 人 员 和 工程 师 希 望 人 工 智能 可 以 拥有 意识 。 

















数字 克隆 人 是 人 工 智能 在 未 来 的 发 展 方向 之 一 。 数 字 克 隆 人 是 人 类 个 
体 的 思维 方式 和 兴趣 爱好 的 数字 复制 品 ， 但 是 ， 数 字 克 隆 人 的 开发 可 能 只 
是 一 种 用 于 实现 人 格 的 技术 。 这 与 图 灵 测 试 的 要 求 很 像 ， 如 果 我 们 能 够 实 
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现 “学 习 模 仿 人 类 ”的 技术 ， 似 乎 就 可 以 实现 数字 克隆 人 。2015 年 左右 ， 
人 们 已 经 开发 出 用 于 实现 此 目标 的 传 感 技 术 ， 由 此 实现 了 很 多 事情 ， 例 如 
根据 图 像 来 推测 面部 表情 ， 并 将 其 与 情绪 关联 等 。 今 后 利用 传 感 技 术 模 拟 
人 格 的 尝试 会 越 来 越 多 。 

此 外 ， 信 息 技术 进步 的 速度 按照 摩尔 定律 呈 指 数 增长 ， 它 同样 遵循 
雷 : 库 效 韦 尔 (Ray Kurzweil ) 提出 的 加 速 回报 定律 ”( the law of accelerating 
returns )。 加 速 回报 定律 也 涵盖 了 箭 增 定律 的 内 容 ， 所 以 该 定律 同样 适用 
于 信息 量 的 增长 。 






































口 如 何 处 理 大 数据 

长 期 以 来 ， 数 据 处 理 系统 的 处 理 能 力 一 直 受 限于 计算 机 的 运算 能 
所 以 人 类 一 直 致 力 于 用 最 少 的 信息 量 实现 观察 和 控制 事物 ， 并 迎合 其 发 展 
趋势 。 然 而 ， 自 2010 年 以 来 ， 我 们 不 仅 得 到 了 包括 各 种 传 感 数据 在 内 的 
多 种 类 型 的 数据 ， 还 得 到 了 相应 的 数据 处 理工 具 。 这 就 意味 着 我 们 在 处 理 
数据 的 同时 ， 必 须 考虑 这 些 持续 增多 的 信息 中 有 哪些 是 有 用 的 信息 、 计 算 
机 要 如 何 处 理 数据 才能 得 到 答案 等 问题 。 


























口 技术 奇 点 来 临 

库 兹 韦 尔 预计 技术 奇 点 将 于 2045 年 到 来 。 虽然 我 们 拥有 通过 机 器 学 习 
系统 从 大 量 信息 中 寻找 解决 方案 的 方法 ,但 仍然 需要 花费 时 间 进 行 数据 清 
洗 等 预 处 理 。 想 让 机 器 能 够 自主 寻找 解决 方案 ， 我 们 还 有 很 长 的 路 要 走 。 

即使 计算 机 能 够 处 理 和 计算 大 量 数据 ， 并 自主 找到 答案 ， 也 还 是 需 
人 类 来 设 定 问题 ， 而 且 在 设 定 问题 和 寻找 答案 的 过 程 中 ， 各 种 讨论 和 灵感 
都 来 源 于 人 类 ( 这 是 人 类 的 特权 ， 也 是 苦恼 所 在 )。 将来， 把 各 种 功能 的 
小 型 人 工 智能 程序 组 装 到 一 起 ， 让 它们 互相 通信 ， 共 同 协作 ， 以 此 来 解决 
更 大 问题 的 设想 终 会 实现 。 这 只 是 时 间 问 题 。 

但 是 ， 即 使 机 器 萌生 了 意识 ， 很 多 地 方 还 有 竺 讨论， 比如 是 使 用 现 有 
方法 还 是 其 他 方法 来 让 机 器 具备 自行 寻找 答案 的 能 力 等 。 这 为 未 来 的 人 工 
智能 研究 增添 了 趣味 性 。 
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中 引 自 雷 . 库 放 韦 尔 所 著 的 《机 器 之 心 》 中 信 出 版 社 2016 年 出 版 。 译 者 注 





哆 全 规则 系统 及 其 变 体 


草 





条 件 分 支 是 最 基本 的 程序 结构 。 计 算 机 诞生 后 ， 人 们 使 用 
条 件 分 支 开发 了 问答 系统 。 基 于 规则 的 系统 ( 简称 规则 系 
统 ) 会 利用 条 件 分 支 来 判断 用 户 输入 的 数据 。20 世纪 50 
年 代 以 后 逐渐 发 展 出 包含 推理 机 和 知识 库 ( knowledge 
base ) 的 专家 系统 ， 其 中 推理 机 能 够 匹配 知识 库 中 的 规则 
自动 分 析 输 入 的 数据 ， 而 知识 库 采 用 了 外 部 存储 设备 来 存 
储 规 则 方面 的 设 定 。 本 章 ， 笔 者 将 对 这 些 内 容 进 行 说 明 。 
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规则 系统 





下 面 来 介绍 让 机 器 基于 规则 对 事物 进行 判断 的 技术 。 


要 点 、@ 让 机 器 代替 人 类 做 判断 = 人 工 智能 程序 
包 采 用 IF-THEN 格式 
名 规则 系统 中 的 规则 由 人 类 设 
包 设置 规则 = 问题 公式 化 ( 用 形式 化 方法 或 公式 化 方法 描述 问题 ) 
色 决策 树 

























































































二 条 件 分 支 程序 





人 生 就 是 一 个 不 断 选 择 的 过 程 。 我 们 在 进行 选择 时 ， 首 先 会 在 脑海 中 
比较 两 个 选择 对 象 ， 然 后 做 出 决定 。 计 算 机 在 解决 问题 时 ， 也 是 通过 连续 
比较 的 方式 来 得 到 答案 的 。 这 里 的 比较 就 是 条 件 分 文 ， 问 题 的 答案 可 通过 
条 件 分 支 推导 出 来 。 

在 此 过 程 中 机 顺 实 现 的 就 是 人 类 认 知 的 智能 ， 所 以 它 也 可 以 称 为 人 工 
智能 。 早 期 的 人 工 智能 由 条 件 分 支 程序 组 成 ， 这 一 点 延续 至 今 ( BE 到 | )。 









































利用 条 件 分 支 进行 判断 的 大 脑 和 系统 
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使 用 条 件 分 支 时 ， 首 先 要 设置 条 件 ， 也 就 是 设置 规则 。 使 用 规则 来 执 
行 条 件 分 支 的 系统 称 为 规则 系统 。 条 件 分 文通 常 采用 正 -THEN 格式 记述 。 
使 用 流程 图 表示 程序 和 算法 结构 ， 就 能 发 现 规则 系统 和 流程 图 的 兼容 性 很 
好 ( 艺 国 ). 
































首先 将 S 和 N 的 初始 值 分 别 设 
置 为 0 和 1。 当 WN 小 于 10 时 ,，S 等 
于 S$ 加 N,N 每 次 增加 1， 反 复 循环 。 
当 .W 涛 于 等 于 和 (这 里 取 .10) 时 ， 
显示 $ 的 值 并 结束 程序 。 
根据 最 终结 果 可 知 ， 这 个 程序 会 


计算 1 到 9 的 总 和 并 赋值 给 5S。 


(False) 






























































流程 图 示例 


汤 规则 的 设计 和 问题 公式 化 

















在 构建 规则 系统 时 ， 条 件 分 支 的 内 容 会 写 到 流程 图 中 ， 而 人 类 需要 事 














先 指 定 相应 的 规则 。 也 就 是 说 ， 规 则 系统 无 法 处 理 人 类 也 不 知道 正确 答案 
的 未 知 问题 。 所 以 在 设置 条 件 时 ， 我 们 要 注意 顺序 和 优先 级 。 





守 例 : 根据 温度 设置 空调 出 风量 的 处 理 

我 们 以 根据 温度 来 设置 空调 出 风量 这 个 简单 的 处 理 为 例 。 当 温度 达到 
33C 以 上 时 将 出 风量 设置 为 超 强 风 ，30%C 以 上 时 设置 为 强风 ，28C 以 上 时 
设置 为 弱 风 。 

当 温度 为 34% 时 ， 如 果 从 温度 是 否 高 于 28% 开始 判 断 ， 就 会 出 现 温 
度 很 高 但 出 风量 很 小 的 情况 。 为 了 避免 这 种 情况 出 现 ， 需 要 从 温度 最 高 的 
条 件 开始 判断 。 
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品 人 名 识别 处 理 
再 比如 人 名 识别 处 理 。 人 名 识别 就 是 判断 两 个 ID 是 否 相 同 ， 如 果 相 



































数据 库 中 的 保险 用 户 进行 匹配 ， 以 及 养老 金 记 录 管 理 中 ， 把 5000 万 个 厚 
生年 金 ” 号码 和 国民 年 金 号 码 与 养老 金领 取 者 进行 匹配 等 工作 ， 都 用 到 了 
人 名 识别 ( 回 四 约 )。 在 制定 规则 时 ， 我 们 需要 考虑 姓名 标记 错误 、 记 录 
时 有 错别字 等 多 种 情况 。 另 外 ， 还 需 制定 规则 来 要 求 已 经 完成 人 名 识别 的 
人 员 不 再 作为 人 名 识别 的 处 理 对 象 。 
































使 用 两 种 方式 识别 比 对 医院 开具 的 收据 和 调剂 药房 的 收据 ， 根 据 组 合 了 保险 号 、 姓 
名 、 性 别 的 信息 散 列 值 ( 通过 散 列 函数 得 到 的 字符 串 ) ( 回路 1 )， 和 组 合 了 保险 号 、 出 
月 日 、 亲 属 关系 的 信息 散 列 值 ( 回路 2 ) 进行 人 名 识别 处 理 。 对 于 只 靠 回路 1 无 法 
上 的 姓名 汉字 错误 等 ， 补 充 使 用 回路 2。 这 么 做 可 以 提高 匹配 率 。 
增加 回路 也 就 是 增加 规则 ， 这 项 工作 需要 手动 完成 。 


路 1) 
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加 到 收据 的 人 名 识别 示例 
摘自 第 6 次 医药 品 安 全 对 策 中 医疗 相关 数据 库 的 活用 对 策 屋 谈 会 JMDC 提供 的 资料 。 












































所 以 ,问题 公 式 化 就 是 在 规则 的 设计 阶段 明确 问题 和 解决 办 法 。 人 工 
能 会 让 多 少 人 失去 工作 一 直 是 一 个 热门 话题 ， 但 如 果 人 工 智能 可 以 实现 
问题 公式 化 ， 又 何 乐 而 不 为 呢 ? 


吻 构建 决策 树 


根据 规则 绘制 流程 图 可 以 得 到 基于 规则 的 三 又 树 。 这 种 树 结构 也 称 为 


瑞 
































四 日 本 的 一 种 保险 ， 相 当 于 我 国 的 养老 保险 。 译 者 注 
@) 原 资料 名 为 [第 6 回 医疗 品 四 安全 对 策 等 入 愉 洒 怠 医疗 阅 休 了 一 夕 八 一 又 四 活用 方 
策 忆 阅 才 轧 息 谈 会 | 译 者 注 
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决策 树 (decision tree )， 常 用 于 统计 学 方面 的 数据 处 理 和 分 析 ( BE 计 | )。 
我 们 可 以 通过 统计 学 数据 分 析 发 现 未 知 的 规则 。 这 时 决策 树 就 尤为 重 
要 了 。 














BMI < 18.5 
BMI < 16 BMI < 25 


BMI < 17 BMI < 30 











以 YES/NO 划分 BMI， 最 终 输 出 体型 的 决策 树 示例 
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知识 库 





下 面 来 介绍 当 规 则 系统 中 的 规则 发 生变 更 时 所 使 用 的 知识 库 。 


要 点 、 @ 增加 规则 系统 的 规则 
包 如 果 所 有 规则 都 写 入 程序 ， 规则 发 生变 更 就 需要 重 写 程序 = 
麻烦 且 不 方便 
包 程序 和 数据 的 分 离 
包 分 离 的 数据 = 知识 库 
包 知识 库 中 包含 供 人 类 搜索 信息 的 检索 系统 



















































































晤 增加 或 修改 规则 


在 构建 规则 系统 的 程序 时 ， 如 果 条 件 分 支 的 规则 是 确定 的 ， 我 们 就 可 
以 使 用 硬 编 码 〈 一 种 后 期 无 法 修改 的 编码 方式 )。 

即使 条 件 设置 发 生 了 变更 ， 如 果 重 写 程序 的 成 本 不 高 ， 我 们 也 完全 可 以 使 
用 硬 编码 。 过 去 ， 外 部 存储 设备 还 属于 超 高 端 产 品 ， 相 比 而 言 重 写 程序 的 成 本 
较 低 。 但 是 ， 如 果 条 件 设置 会 频繁 变更 ,例如 希望 根据 喜好 来 修改 条 件 设置 
等 ， 在 这 种 情况 下 可 能 需要 多 次 重 写 程序 ， 这 就 会 导致 成 本 增加 (国史 葛 ). 




































































最 初 的 程序 


条 件 A 变 更 (1) 
+ 条 件 C 变 更 





替换 代码 导致 工作 量 增加 
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为 了 解决 这 个 问题 ， 我 们 把 处 理 并 输出 数据 的 程序 与 条 件 设 置 的 数据 
对 象 分 离开 来 。 分 离 出 来 的 数据 的 集合 就 是 知识 库 。 在 条 件 分 文中 ， 程 序 
会 使 用 规则 ID 读 取 相 应 的 条 件 设置 值 进行 判定 。 

知识 库 既 能 以 文本 形式 保存 在 文件 系统 中 ， 也 能 存储 在 SQLite 等 数 
据 库 管理 系统 ( database management system，DBMS ) 中 。 

一 些 系统 可 以 使 用 文本 编辑 器 、 专 用 设置 界面 或 查询 语句 来 更 新 知识 
库 的 内 容 ( 国 世 芭 3 )。 
























































例如 ， 
“后 期 可 以 随意 


过 瘦 显示 内 容 
NY” 偏 . 可 以 增加 或 减少 条 


重 写 决策 树 max-BMI 显示 内 容 




















<——— YES 
Bn 取 设 置 值 pi 


BMI < 16 BMI < 17 BMI <18.5 BMI < 25 BMI < 30 


过 瘦 偏 瘦 








输入 BMI 即 可 显示 体型 的 系统 


二 可 以 供 人 类 和 程序 搜索 的 系统 








知识 库 中 存储 的 数据 ， 除 了 作为 配置 文件 供 程序 读 取 ， 还 能 存储 海量 














的 信息 供 人 类 使 用 ( )。 
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知识 库 的 系统 示例 


世 UniProtKB 





不 同 物种 的 蛋白 
表达 数据 集 











数据 库 系 统 UniProtKB 是 一 个 用 于 生命 科学 领域 的 知识 库 。 欧 洲 的 一 
些 机 构 合 作 收 集 和 蛋白 质 信息 ， 并 对 这 些 和 蛋白 质 信 息 进 行 注释 和 精 选 ， 开 发 
了 UniProt ( The Universal Protein Resource ) 目录 数据 库 和 分 析 工 具 等 。 


为 数据 添加 相关 信息 。 


收集 数据 ， 根 据 注释 等 信息 进行 审议 、 整 


合 、 整 再 


有 E 及 汇 总 。 








UniProtKB 是 一 个 目录 制作 系统 ， 根 据 全 球 大 型 数据 库 中 登记 的 基因 
碱 基 序 列 和 氨基 酸 序列 ， 聚焦 组 成 蛋白 质 的 氨基 酸 序列 以 及 蛋白 质 特性 ， 
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直接 收录 这 些 信 息 ， 或 者 存储 手动 精 选 后 的 信息 ， 向 使 用 者 开放 。 

UniProtKB 中 还 包括 物种 和 生物 学 通路 〈 表示 生物 体内 的 生物 化 学 分 
子 与 蛋白 质 等 其 他 化 合 物 相 互 作 用 的 数据 ) 等 信息 。 因 此 ， 我 们 可 以 使 用 
UniProtKB 筛选 新 的 蛋白 质 ， 解 决 “ 人 类 和 老鼠 之 间 有 哪些 相似 的 蛋白 
质 "” “预测 蛋白 质 具有 哪些 作用 ”等 问题 。 
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下 面 来 介绍 使 用 推理 机 的 专家 系统 。 














要 点 、 专家 系统 是 基于 规则 的 推理 机 
包 目前 很 多 分 析 结 果 呈 现 系统 属于 专家 系统 
包 推理 机 的 类 型 包括 命题 逻辑 、 谓 词 逻辑 、 认 识 逻 辑 和 模糊 逻辑 等 
包 前 向 链接 推理 ( 数据 驱动 ) 和 反 向 链接 推理 ( 目标 驱动 ) 

































































营 专家 系统 : 利用 专家 的 判定 规则 进行 推理 














前 面 介 绍 的 规则 系统 是 20 世纪 60 年 代 发 展 起 来 的 ， 并 逐渐 应 用 到 了 
大 型 系统 中 。 能 够 辅助 或 代替 专家 〈 研究生 及 以 上 水 平 ) 完成 分 类 和 判别 
等 工作 的 系统 称 为 专家 系统 。 目 前 ， 生 产 系 统 等 大 多 数 呈 现 分 析 结果 的 系 
统 源 自 专家 系统 。 











世 早期 的 专家 系统 DENDRAL 

DENDRAL 是 最 早 的 专家 系统 ，1965 年 开始 在 美国 斯 坦 福 大 学 开发 。 
它 可 以 根据 质谱 分 析 的 峰值 ( 分子量 ) 推测 待 测定 物质 的 化 学 结构 。 编 程 
语言 使 用 的 是 LISP 语言 "。 

以 水 分 子 (HO ) 为 例 来 说 就 是 ，H=1.01，O=16.00， 取 整数 值 相 加 
后 得 到 水 分 子 的 相对 分 子 质量 为 18。 在 进行 质谱 分 析 时 ， 峰 值 会 出 现在 
18 附近 ( 质谱 分 析 仪 使 用 的 是 气相 色谱 法 ， 其 分 辩 率 能 精确 到 个 位 ， 所 
以 即使 数值 不 那么 精确 也 能 用 于 推测 ) ( 茵 EB )。 


















































中 List Processing 的 缩写 ， 是 一 种 早期 开发 的 、 具 有 重大 意义 的 表 处 理 语言 ， 适 用 于 
符号 处 理 、 自 动 推理 、 硬 件 描述 和 超大 规模 集成 电路 设计 等 。 译 者 注 
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水 和 乙醇 的 质谱 图 


DENDRAL 系统 根据 原子 组 合计 算 相 对 分 子 质量 为 18 的 化 学 物质 并 
输出 答案 。 但 是 ， 相 对 分 子 质量 越 大 ， 原 子 组 合 越 多 ， 计 算 答 案 所 需要 花 
费 的 时 间 就 越 长 ， 所 以 我 们 要 想 办 法 让 DENDRAL 系统 不 计算 那些 无 须 
评估 的 原子 组 合 。 

DENDRAL 系统 包括 两 部 分 ,分别 是 进行 启发 式 (经 验 法 则 ) 分 析 的 
Heuristic DENDRAL， 以 及 把 分 子 结构 组 合 及 其 质谱 图 一 起 登记 到 知识 库 
中 并 反馈 给 启发 式 系统 的 Meta-DENDRAL。 它 们 都 是 学 习 系统 。 








蕊 由 DENDRAL 衍生 而 来 的 MYCIN 
MYCIN 是 在 20 世纪 70 年 代 开 发 出 来 的 专家 系统 ， 由 DENDRAL 衍 
生 而 来 。 该 系统 的 任务 是 诊断 具有 传染 性 的 血液 病 ， 并 提供 合适 的 治疗 建 
议 ， 包括 使 用 的 抗生素 及 剂量 等 。 系 统 名 称 MYCIN 取 自 抗生素 的 英文 后 
级 -mycin。 
MYCIN 系统 内 部 约 有 500 条 规则 ， 用 户 回 答 的 形式 并 不 限于 YES 或 
NO。 用 户 依次 回答 提问 后 ， 系 统 会 自动 判断 出 患者 可 能 感染 的 细菌 ， 并 
按照 可 能 性 由 高 到 低 的 顺序 将 它们 呈现 出 来 ， 还 会 附 上 相应 的 理由 。 不仅 
如 此 ， 该 系统 还 会 结合 体重 等 信息 给 出 治疗 方案 。 

据 斯 坦 福 大 学 医学 院 的 调查 显示 ，MYCIN 的 诊断 准确 率 是 65%， 优 
于 非 细菌 感染 专业 的 医生 ,但 专科 医生 的 诊断 准确 率 是 80%，MYCIN 还 
差 了 一 些 。 

作为 一 个 开发 项 目 ，MYCIN 系统 是 成 功 的 。 它 的 性 能 也 很 好 ,但 是 































































































32 | 图 解 人 工 智能 

















该 系统 并 没有 投入 临床 实践 。2000 年 以 后 ， 人 们 认为 由 于 医疗 专家 系统 
的 可 信和 度 低 ， 即 使 开发 出 来 也 很 难得 到 实际 应 用 。 况 且 ， 这 种 系统 在 道德 
和 法 律 方面 也 存在 问题 。 当 医生 采用 了 计算 机 给 出 的 错误 的 诊断 结果 时 ， 
计算 机 是 不 能 承担 责任 的 ， 而 医生 也 会 觉得 责任 不 在 自己 。 如 果 使 用 医疗 
专家 系统 ， 系 统 的 诊断 准确 率 至 少 要 达到 85% 一 90%， 并 且 应 尽 可 能 减少 
假 阳 性 率 和 假 阴 性 率 ， 也 就 是 阳性 率 要 高 。 





















































泌 推理 机 的 种 类 和 方法 














专家 系统 利用 推理 机 返回 判断 结果 。 推 理 机 是 基于 规则 进行 推理 的 一 
组 程序 。 人 类 可 以 直接 理解 用 语言 表达 的 规则 ， 但 为 了 让 计算 机 也 能 理解 
并 处 理 这 些 规 则 ， 需 要 将 表达 方式 转换 为 计算 机 能 接受 的 形式 。 这 种 表达 
所 属 的 学 术 领 域 叫 作 符号 逻辑 学 。 

命题 逻辑 是 最 基本 也 是 最 常用 的 表达 方式 ， 可 以 表示 布尔 型 的 内 容 。 
命题 逻辑 由 命题 变量 和 联结 词 构成 。 

命题 逻辑 并 不 关心 命题 内 容 本 身 的 含义 ， 只 是 通过 且 、 或 、 非 等 将 命题 
关联 起 来 ， 以 此 来 表示 和 掌握 命题 之 间 的 相关 性 。 所 以 ， 即 使 无 法 分 析 命 题 的 
含义 ,我 们 也 可 以 通过 使 用 谓词 逻辑 等 命题 逻辑 的 扩充 逻辑 为 命题 添加 含义 。 

对 命题 逻辑 进行 扩充 后 ， 人 们 提出 了 固 史 E 中 的 逻辑 并 建立 了 推理 
机 。 推 理 机 增加 了 系统 对 于 查询 的 回答 方式 。 












































el 

模 态 逻辑 (modal logic) 
认识 逻辑 (epistemic logic) 

时 态 逻 辑 (tense logic) 


多 值 逻 辑 (multi-valued logic) 
-| 模糊 逻辑 (fuzzy logic) 


















































扩充 后 的 推理 机 


命题 逻辑 和 谓词 逻辑 中 会 使 用 符号 来 表达 句子 。 命 题 逻 辑 中 的 命题 
式 由 原子 命题 ( 即 命题 变量 ) 和 联结 词 构成 ， 而 谓词 逻辑 在 命题 逻辑 的 
础 上 增加 了 一 些 符 号 ， 扩充 了 表达 范围 。 符 号 如 茹 5 到 | 到 展 罗 有 所 示 。 


几 学 
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命题 逻辑 的 符号 种 类 












































条 有 目 内 容 

命题 公式 原子 公式 或 原子 公式 和 联结 词 相 结 合 的 形式 表示 

原子 命题 公式 ( 简称 原子 公式 ) 就 是 命题 变量 

命题 变量 P、Q、p、4、$、W 等 

联结 词 一 【否定 i ),， notJ、 八 【 合 取 ( 并且), and 
V【 析 取 (或 )， or 和 
僵 ( 列 涵 ， ne ( 等 值 ，equivalence ) 
否定 与 合 取 以 外 的 关系 都 可 有 蕴涵 等 值 式 表示 

辅助 符号 ( ) (括号 ) 的 表示 方法 不 一 

逻辑 等 值 三 ( 等 值 ) 表示 两 个 命题 公式 具有 等 值 关系 


谓词 逻辑 的 符号 种 类 

















































































































条 目 内 容 
谓词 公式 原子 公式 或 原子 公式 和 逻辑 符号 相 结合 的 形式 表示 
原子 谓词 公式 ( 简称 原子 公式 ) 原子 公式 或 原子 公式 和 项 相 结合 的 形式 表示 
项 常量 符号 、 变 量 符号 、 函 数 符号 表示 
常量 符号 True、False、X、Y、apple、Tommy 等 
变量 符号 P、O、 4、 少 、 包 等 
函数 符号 FATHER() 等 ， 表 示 关 系 
谓词 符号 cold0 等 ， 表 示 性 质 和 状态 
逻辑 符号 联结 词 和 量词 符号 构成 
量词 符号 YY ( 全 称 量词 )， 习 ( 存在 量词 ) 


谓词 逻辑 表示 法 示例 

















MOTHER(Tom) Tom 的 母亲 

cold(x) x 很 冷 

习 x(have(L x) \ book(x)) 我 有 书 

V x(girl(x) SS 3 y(loves(x, y) AcakeO))) 女性 都 喜欢 蛋糕 

— 3x(human(x) \ touch(x, BACK(x))) 任何 人 都 摸 不 到 自己 的 后 背 

















ULD 
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给 定 两 个 命题 P 和 0, 已 知 两 个 命题 的 真 假 值 ( 使 用 True、False， 
或 者 1、0 表示 真 假 )。 根 据 命题 P 和 0 的 值 ， 可 以 得 到 一 P、PA 信 OO、 
PV0O、P 入 0、P 合 0 的 结果 ， 具体 如 基于 所 示 。 也 可 以 说 , P 芒 0 等 值 
于 (一 P)V 0, P 合 0 等 值 于 (P 芒 0) 人 (0 己 P)。 这 种 表格 就 叫 作 真 值 表 。 


P 了 和 0 的 真 值 表 


Bon 
0 0 0 0 0 1 1 


0 i i 0 i 1 0 
1 1 0 nl il 1 1 
1 0 0 0 1 0 0 

相应 的 逻辑 运算 符 NOT AND OR 


另外 ， 如 果 一 个 命题 公式 在 任意 情况 下 都 取 真 值 ， 我 们 就 称 之 为 恒 真 
式 或 重 言 式 ; 反之 在 任意 情况 下 都 取 假 值 ， 我 们 就 称 之 为 永 假 式 或 矛盾 
式 。 命 题 公式 之 间 存 在 像 谍 多国 那样 的 恒 真 式 ， 即 命题 公式 之 间 存 在 等 值 


ER 到 命题 公式 之 间 的 主要 等 值 关 系 
B= == 


EINON NR OICONNR) 
(PVO)VR=PV (QVR) 
PA(QOVR)=(PAOV (PAR) 
PV(ONBR=(CPVONMPVR) 


BASO = OWN 
PYVO=OVE 


(PNO)= PV 1O 
(VO A 

















rr (Vp0) = a+p0) 
es —( ap) = VA( p00) 








利用 推理 规则 可 以 把 公式 的 组 合 转换 为 子 名 形式 ( clause form )。 转 
换 后 ， 复 杂 的 表达 式 就 会 化 繁 为 简 ， 方 便 后 续 处 理 。 命 题 公 式 转换 后 得 到 
合 取 范式 (conjunctive normal form )， 谓 词 公式 转换 后 得 到 斯 科 伦 范式 
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( skolem normal form )。 合 取 范 式 中 的 子 句 (clause ) 是 命题 公式 的 析 取 
式 "。 这 两 种 转换 如 加 有 2U 和 加 四 本 中 所 示 


PeOVE 
=(P3 QVR)A(QVRS P) 消除 等 值 符号 
一 PV(QVR)) 八 (一 (QVR)VP) 一 一 一 一 一 消除 蕴涵 符号 
-PVQVRA((- QA RVPD) 运用 德 。 
+ PV QVR)A— QV PN- RYVPD) 运用 























3xvyP (x, yV Q(X) 3xVzR (x, 2) 
三 一 (3xVyP( yV Q(x)V 3xvVzR (x, 2) 
消除 等 值 符号 和 至 涵 各 
= Vx3y— (P(x, yV Q(x)V IxVzR (x, 2) 
消除 双重 否 吕 
三 Vx3dy(—P(x, yN—Q (x)V IxvVzR (x, 2) 
三 Vx13x2(—P(x1, Xa) 和 —Q (xX))V Ixs VxaR (x3, x4) 
-一 变量 标准 化 
> VxX1i( -Pu f(x) Q(X)V VxaR (a, x4) 
一 利用 斯 科 伦 函 数 消除 存在 量 i 
三 Vx1Vx4(—P (x1, f (x) Q(X)VR (a, x4) 
一 移动 全 称 量词 
三 VxX1Vx4a(—P (x1, f (XVR(a, Xx)N(—Q xD)VR (a, x4)) 
Cy Cs 
一 运用 分 配 律 
三 Vx1Vx2s Vx3Vxa(—P (x1, f (XVR(a, XO) NT Q (XVR (a, x4)) 
一 各 子 句 中 的 变量 独立 



















































































谓词 公式 转换 为 斯 科 伦 范式 





QD 有 限 个 子 句 的 合 取 式 称 为 合 取 范式 ， 有 限 个 文字 的 析 取 式 称 为 子 句 (clouse )， 命 
题 变 元 或 命题 变 元 的 否定 称 为 文字 ( character )。 有 限 个 文字 的 合 取 式 称 为 短语 
( phrase )， 有 限 个 短语 的 析 取 式 称 为 析 取 范式 。 译 者 注 
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在 把 谓词 公式 转换 为 斯 科 伦 范式 时 ， 要 利用 斯 科 伦 函 数 消除 存在 量 
词 。YYxi 习 x 一 P(xi, 9) 表示 从 x 可 以 映射 到 x,， 所 以 Vx 3 导 x 一 P(x 
w) 可 以 用 fr) 表示， 而 习 x3VxRGv, xz 中 的 x 是 必定 存在 的 ， 所 以 xs 
可 以 用 常数 a 替换 。 最 后 关于 各 子 句 中 的 变量 独立 部 分 ， 在 运用 分 配 律 的 
步 又 中 ，C, 和 C, 内 包含 的 x 和 x 相互 独立 会 便于 计算 ， 所 以 将 x 和 x 
替换 为 和 x;， 以 此 实现 二 者 的 独立 。 
推理 机 和 推理 规则 的 范式 转换 能 够 提高 查询 知识 库 的 效率 。 

所 以 ,我 们 也 可 以 将 人 工 智能 理解 为 在 没 人 帮助 的 情况 下 ， 推 理 机 能 
够 执行 多 少 任务 。 在 用 公式 化 方法 描述 问题 时 ， 如 果 由 人 类 事先 完成 一 部 
分 推理 机 的 任务 ， 就 能 在 很 大 程度 上 对 程序 需要 处 理 的 问题 加 以 限制 。 在 
20 世纪 70 年 代 ， 人 们 认为 即便 使 用 推理 机 也 很 难 实现 能 够 应 对 所 有 问题 
的 人 工 智能 。 这 就 是 符号 接地 问题 ( symbol grounding problem )。 











































































































推荐 引擎 也 是 一 种 专家 系统 ， 常 用 于 电子 商务 ( Electronic Commerce， 
EC ) 网 站 等 的 评价 系统 。 下 面 笔者 就 来 介绍 它 。 






































要 点 、 6 推荐 引擎 是 一 种 预测 缺失 信息 并 将 其 推荐 给 用 户 的 专家 系统 
名 常用 于 电子 商务 网 站 和 媒体 
名 简单 的 填充 示例 : 根据 共 现 关系 推导 相关 性 
名 基于 协同 过 滤 的 个 性 化 推荐 












































部 预测 并 推荐 相似 内 容 的 推荐 系统 

专家 系统 除 在 根据 质谱 数据 推测 物质 化 学 结构 的 程序 中 使 用 之 外 ， 还 
应 用 于 现在 被 广泛 使 用 的 推荐 引擎 。 

用 户 在 电子 商务 网 站 上 查看 某 件 商品 时 ， 网 站 会 提示 浏览 过 该 商品 的 用 
户 购 买 了 哪些 产品 。 这 个 向 用 户 推荐 相似 商品 的 系统 就 是 推荐 引 敬 。 推 荐 引 
擎 也 是 一 种 专家 系统 ， 用 来 将 用 户 的 浏览 信息 作为 关键 词 显 示 相 似 的 内 容 。 

推荐 引擎 可 以 分 为 两 种 类 型 ， 一 种 是 基于 内 容 的 推荐 ， 另 一 种 是 基于 
用 户 浏览 记录 和 购买 记录 等 个 人 信息 的 推荐 。 















































品 基于 内 容 的 推荐 

基于 内 容 的 推荐 引擎 只 通过 物品 信息 ( 电子 商务 网 站 的 商品 信息 、 a 
闻 网 站 的 报道 信息 等 ) 进行 计算 ,从 而 得 到 相似 的 内 容 。 这 类 推荐 引擎 
使 用 任何 用 户 的 个 人 信息 。 

知识 库 内 除 包含 标题 、 种 类 等 信息 的 构成 要 素 以 外 ,还 包含 通过 计 
算 推 导出 的 其 他 的 数据 表现 形式 。 我 们 把 信息 的 构成 要 素 和 通过 计算 推导 
出 的 数据 表现 形式 统称 为 特征 ， 把 通过 计算 推导 特征 的 处 理 过 程 称 为 特征 
提取 。 
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例如 ，A 先生 正在 浏览 关于 熊本 地 震 的 新 闻 报 道 。 推 荐 引擎 需要 解决 
的 问题 是 接 下 来 推荐 哪些 报道 给 A 先生 〈 国史 于 四 )， 假 设 每 篇 报道 都 设置 
了 关键 词 ， 我 们 可 以 利用 这 些 关 键 词 创建 特征 。 





























向 A 先生 推荐 的 下 一 篇 报道 是 什么 ? 














人 A 先生 正在 浏览 熊本 地 震 的 新 闻 报道 ， 下 一 篇 该 显示 什么 报道 ? 











一 些 关 键 字 或 关键 词 等 信息 构成 要 素 频繁 出 现在 多 篇 报道 或 文章 中 的 
状态 称 为 共 现 。 共 现状 态 的 表达 形式 称 为 共 现 模式 或 共 现 关 系 ( )。 


报道 和 关键 词 的 关系 表 


EE 
熊本 1 i 0 1 


地 震 1 0 1 1 
地 层 0 0 1 0 


层 0 1 1 1 
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得 到 上 述 共 现 关系 的 数据 后 ,我们 就 可 以 计算 报道 间 的 相关 性 了 
(本 BE 盏 )。 假设 报道 a 和 报道 b 的 相关 性 由 共同 的 关键 词 占 二 者 关键 词 总 
数 的 比例 来 决定 ， 这 时 我 们 可 以 循环 计算 出 报道 间 的 相关 性 。 


表示 新 闻 报 道 之 间 相 关 性 的 表 


0333 1.000 

QB33 QB3 1.000 

0.571 0.857 Qeml 1.000 
TT TT ET ET 

通过 这 个 处 理 ， 我 们 可 以 按照 内 容 相 似 度 由 高 到 低 的 顺序 将 和 报道 a 
相似 的 报道 排列 出 来 。 上 表 的 结果 可 排列 为 报道 d > 报道 b= 报道 c。 

上 述 例 子 的 前 提 是 每 篇 报道 都 设置 了 关键 词 ， 当 然 我 们 也 可 以 通过 计 
算 来 实现 对 文本 的 特征 提取 。 笔 者 会 在 第 11 章 简 单 介 绍 一 下 文本 特征 提 
取 的 相关 内 容 。 

不 过 ， 推 荐 系统 如 果 只 是 单纯 地 把 相似 的 报道 放 在 一 起 ， 就 会 出 现 推 
荐 内 容 雷 同 的 问题 ， 所 以 我 们 需要 采用 一 些 方法 来 防止 过 度 推荐 。 














人 基于 协同 过 滤 的 个 性 化 推荐 

协同 过 滤 算 法 可 以 根据 用 户 的 浏览 记录 和 购买 记录 等 个 人 信息 为 用 户 
推荐 更 合适 的 信息 。 亚 马 逊 公司 就 使 用 了 协同 过 滤 推 荐 系统 。 

前 面 介绍 的 基于 内 容 的 推荐 ， 是 通过 推导 报道 间 的 关键 词 的 共 现 关系 
来 定义 相关 性 并 以 此 来 提取 相似 报道 的 。 而 个 性 化 推荐 是 根据 用 户 个 人 的 
历史 信息 与 其 他 用 户 的 信息 之 间 的 共 现 关系 来 进行 相关 分 析 ， 从 而 实现 个 
性 化 推荐 的 。 也 就 是 说 ， 协 同 过 滤 基 于 这 样 一 个 假设 : 如 果 某 些 用 户 对 某 
些 项 目的 行为 和 评分 相似 ， 则 这 些 用 户 对 其 他 项 目的 行为 和 评分 也 相似 。 

把 目标 用 户 和 先生 和 A 先生 一 E 先生 浏览 10 种 商品 后 是 否 购买 了 该 
商品 的 信息 用 0 和 1 表示 (有 )。 没 有 数据 的 地 方 填 人 连 字符 。 
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包含 网 站 用 户 和 商品 购买 记录 的 相似 度 矩 阵 




















商 品 
L 包 3 4 5 6 也 8 9 Go 
X = 1 0 = - = = 0 0 由 
和 由 ll 中 = = 三 = 0 0 0 
B = 一 一 0 0 0 ll 1 1 0 
户 ® 0 1 0 0 一 1 L 0 0 由 
ID 0 = = 0 1 1 0 0 中 il 
EE 一 0 - 有 0 - 0 0 0 
推荐 度 





这 里 的 问题 是 根据 X 先生 的 购买 记录 ， 预 测 最 适合 推荐 给 XX 先生 的 
商品 ， i 
， 计 算 久 先生 浏览 过 的 2、3、8、9、10 这 5 种 商品 ， 与 其 他 5 
ed 十 的 商品 间 的 0 和 1 的 相关 系数 。 在 这 种 情况 下 ， 通 常 计算 的 
是 皮尔 逊 相关 系数 。 例 如 ,，X 先生 和 A 先生 的 相关 系数 可 通过 医 PE 上 
端的 公式 计算 出 来 。 计 算 结 果 如 图 哆 量 图 下 端 所 示 。 用 同样 的 方法 可 计算 
出 义 先 生 与 其 他 4 人 的 相关 系数 。 








X 先 生 的 购买 记录 {x1, xz, x3, x4, x5,} 二 {1, 0, 0, 0, 1} 
人 A 先生 的 购买 记录 {y1, y2, y3, y4, y5,} 二 {1, 1, 0, 0, 0} 





1(Xi 一 xX)(yi 一 放 
V(x i) (一 让) 





相关 系数 r 





37_1(xi—0.4)(yi—0.4) 
VE —0.4))(3 1(yi—0.4)’) 
0.6X0.6+(—0.4)xX0.6+0.4xX0.4+0.4x0.4+0.6x(—0.4) 
V(0.62 十 0.42 十 0.42 十 0.42 十 0.62)(0.62 十 0.62 十 0.42 十 0.42 十 0.42) 


0.36 十 0.16 义 2 一 0.24X2 _ 0.2 ~ 0.167 
0.36X2+0.16X3 2 一 





























相关 系数 的 计算 
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计算 结果 中 有 3 人 (C 先生 、D 先生 和 EE 先生 ) 的 相关 系数 大 于 0.5， 
这 表明 他 们 与 X 先生 之 间 是 正 相 关 的 ( 购买 趋势 相同 ) (RD ). 


EPE 包含 网 站 用 户 、 商 品 购买 记录 和 相关 系数 的 相似 度 和 矩阵 























商 品 与 广 先 生 的 

3 | 和 |§ 1T|8|9| Ww | 入 关 过 改 
1 | 1.000 

i = non 0.167 
-Bona 1 i -1.000 
oO = We I ON EO 1.000 

= momen oe 0 | 1 0.500 
= ea 0.612 








本 来 应 该 另行 讨论 如 何 选择 目标 对 象 ， 但 接 下 来 我 们 就 直接 以 这 3 人 
介绍 如 何 选择 推荐 给 X 先生 的 商品 。 

X 先生 未 浏览 过 的 商品 包括 1、4、5、6、7。 我 们 把 C 先生 、D 先生 
和 EE 先生 3 人 浏览 这 5 种 商品 的 数据 平均 值 作为 推荐 度 。 不 使 用 总 值 的 原 


为 对 象 ， 





是 考虑 了 缺失 值 的 


的 数据 ， 


品 5 的 推荐 度 最 高 ， 
中 的 示例 用 0 和 1 表示 购买 记录 ， 而 目前 一 些 常用 推荐 引擎 


























影响 。 这 样 就 能 根据 与 X 先生 购买 行为 相似 的 3 个 人 


通过 计算 找到 XX 先生 未 浏览 过 的 但 最 有 可 能 购买 的 商品 。 这 里 商 








为 1.00， 所 以 接 下 来 要 向 X 先生 推荐 的 是 商品 5。 











中 使 用 的 是 五 级 评分 法 。 
ES 包含 网 站 用 户 、 商 品 购买 记录 、 相 关系 数 和 推荐 度 的 相似 度 和 矩阵 























商 品 

3 4 9 6 8 10 we 
0 一 一 = 一 0 0 1 1.000 

| = = = = 0 0 0 Qem 

= 0 0 0 1 1 1 0 一 1.000 
0 0 一 1 jl 0 0 1 1.000 

= 0 用 1 0 0 il 1 0.500 

0 = ll 0 一 0 0 0 0.612 


oo oo oo os 





3 自动 机 和 人 工 生 命 
本 程序 


计算 机 程序 可 以 响应 输入 ， 而 迭代 循环 或 定时 器 能 够 创造 
出 源源 不 断 的 输入 。 仿 真 程序 等 就 利用 了 这 种 机 制 。 元 胞 
自动 机 ( Cellular Automata，CA ) 会 在 程序 内 设置 有 限 自 
动机 ， 并 在 迭代 循环 时 改变 自身 状态 。 本 章 ， 笔 者 将 对 元 
胞 自动 机 及 它 的 应 用 示例 进行 说 明 。 
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人 王 生 命 异 型 





下 面 来 介绍 人 工 生命 模型 。 人 工 生命 模型 可 以 使 机 器 看 起 来 拥有 自己 
的 意志 或 生命 。 

















要 点 、 6 机 器 拥有 意志 = 拥有 生命 
包 生命 = 物 是 活 的 -能够 自我 制 繁衍 后 代 
包 基于 元 胞 自动 机 的 生命 游戏 
名 流行 病 模型 ( SEIR 模型 ) 






























































特 何谓 生命 
十 多 年 前 ， 一 种 叫 作 电子 宠物 的 小 玩具 风靡 一 时 。 因 为 人 类 喜欢 饲养 
其 他 生物 当 宠物 ， 所 以 即便 是 动态 的 热带 鱼 屏 幕 保 护 程序 ， 也 能 让 很 多 人 
从 中 感受 到 生命 的 存在 。 
生物 最 重要 的 特征 就 是 具有 自我 复制 的 能 力 ， 也 就 是 繁衍 后 代 的 能 
力 。 这 种 类 型 的 程序 存在 已 入 ,但 如 果 人 们 能 从 程序 自我 复制 的 举动 中 感 
受到 意志 的 存在 ， 就 会 期 待机 器 亦 能 拥有 生命 吧 。 


命 游戏 就 是 这 样 一 个 经 典 程序 。 该 程序 自 1970 年 在 杂志 上 被 介绍 
ao 在 棋盘 上 任意 位 置 落 子 或 填充 方 格 ,然后 根据 某 
种 规则 改变 方 格 的 状态 ， 模 拟 生 命 随时 间 变 化 的 过 程 。 我 们 可 以 使 用 方 格 
纸 手动 填充 ， 不 过 使 用 计算 机 按照 一 定 的 时 间 间 隔 自动 处 理 的 做 法 比较 轻 
松 。 随 着 时 间 的 推移 ， 被 填充 的 方 格 会 不 断 扩散 或 消失 ， 演 变 过 程 让 人 百 
看 不 大 。 

在 这 个 游戏 中 ， 方 格 有 填充 (生命 诞生 ) 和 空白 (死亡 ) 两 种 状态 ， 
状态 的 变化 遵循 下 述 规则 。 这 个 规则 称 为 算法 。 










































































也 规则 
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每 个 方 格 都 有 8 个 相 邻 的 方 格 : 上 、 下 、 左 、 右 ,以 及 4 个 对 角 
( 医 囊 | )， 如 果 1 个 空白 方 格 周围 有 3 个 填充 方 格 ， 那 么 下 一 个 时 刻 ， 该 
空白 方 格 会 变 为 填充 方 格 ， 出 现 生命 。 如 果 1 个 填充 方 格 周围 的 填充 方 格 
的 数量 小 于 等 于 1 或 大 于 等 于 4， 下 一 个 时 刻 该 填充 方 格 就 会 因为 周围 同 
类 过 于 稀 琉 或 过 于 拥挤 而 消亡 。 


























围 填充 ( 活 的 ) 方 格 



































如 果 1 个 空白 方 格 的 周围 有 3 个 填充 方 格 ， 
则 下 一 个 时 六 该 空白 方 格 变 为 填充 方 格 ( 生命 诞生 ) 
































如 果 1 个 填充 方 格 的 周围 有 2 个 或 3 个 填充 方 格 ， 
则 下 一 个 时 刻 该 填充 方 格 的 存活 状态 不 变 












































图 3-1| 




















如 果 1 个 填充 方 格 周 围 的 填充 方 格 小 于 等 
则 下 一 个 时 刻 该 填充 方 格 变 为 空白 方 格 ( 死亡 















































如 果 1 个 填充 方 格 周围 的 填充 方 格 大 于 等 
则 下 一 个 时 刻 该 填充 方 格 变 为 空白 方 格 ( 死亡 












































表示 生命 游戏 规则 的 表 





摘自 维基 百科 台 





E 命 游戏 
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在 生命 游戏 的 进行 过 程 中 ,棋盘 会 呈现 出 多 种 不 同 的 图 案 。 初 始 图 案 
的 样 态 不 同 ， 演 化 结果 也 会 不 同 。 大 多 数 图 案 经 过 若干 代 的 演化 后 最 终 会 
走向 死亡 ， 但 也 有 一 些 图 案 出 现 后 便 回 定 不 变 ， 或 者 持续 繁衍 。 

经 典 图 案 有 很 多 。 例 如 蜂 集 属于 数量 稳定 的 静止 型 ， 滑翔 机 属于 运动 
型 ,滑翔 机 枪 ( 能 持续 发 射 滑翔 机 的 枪 ) 属于 持续 繁殖 型 。 还 有 一 种 “不 
老 不 死 ”( diehard ) 的 图 案 属于 长 寿 型 。 这 种 图 案 虽 然 最 终 也 会 消亡， 但 
它 可 以 延续 130 代 ( 攻 国 到 )。 














































































































































































































长 寿 型 示例 





摘自 《原始 生命 起 源 于 海洋 六 





























中 ”原文 名 为 「 原初) 海上 生命 计生 办 出 世 码 由 办 译 者 注 
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上 述 图 案 可 以 用 来 运行 所 有 计算 机 能 够 执行 的 逻辑 运算 ， 所 以 说 生命 
游戏 具有 图 灵 完 备 性 。 





电 流行 病 模型 
生命 游戏 用 方 格 表示 生死 。 对 表示 的 内 容 进行 扩展 ， 用 方 格 表 示 患 


者 的 感染 状态 ， 就 能 在 用 户 界 面 上 显示 流行 病 模型 。 感 染 状态 的 转换 遵循 
所 示 的 规则 。 























天 可 个 方 格 都 有 人 居住 

" 如 果 相 邻 方 格 有 感染 者 ， 易 感 者 在 下 一 步 被 传染 的 概率 为 p 
在 感染 后 的 第 n 步 恢复 ， 感 染 者 恢复 后 变 为 免疫 者 *1 
会 在 恢复 后 的 第 mm 步 丧失 免疫 力 泡 





















































“在 初始 阶段 ， 居 民 为 感染 者 的 概率 为 49， 为 免疫 者 的 概率 为 r 





※1 感染 后 的 恢复 条 件 可 以 根据 概率 决定 
※2 丧失 免疫 力 的 条 件 也 可 以 根据 概率 决定 








感染 状态 的 转换 


基于 易 感 者 ( susceptible )、 感 染 者 (infected )、 免 疫 者 ( recovered ) 
这 三 者 的 状态 转换 得 到 的 模型 称 为 SIR 模型 。 中 用 0 表示 缺乏 免疫 
力 但 未 被 感染 的 细胞 状态 ， ee Ls 


某 个 细胞 在 时 刻 了 和 时 刻 T+1 的 状态 


| aa ass sa| | saslsat| | sa 





























ZE 形 寺 色 a nt+m 
周围 状 
il a 岂 3 本 六 n+l je 要 ey 0 


计算 各 个 阶段 每 个 方 格 的 状态 ,就 可 以 用 图 表 描绘 出 感染 者 增加 或 减 
少 的 趋势 〈 国 加 到 )。 
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Suse pit ibe 


Infected 





Recovered 














31 41 51 61 | 


国 在 一 个 20 x 20 的 方 格 和 矩阵 中 ， 首 先 随机 设置 5% 的 感染 者 和 19% 的 
免疫 者 ， 设 感染 率 为 20%。 左 图 是 完成 72 步 后 的 状态 推移 。 黑 色 
表示 感染 者 ， 灰 色 表 示 免疫 者 。 感 染 周期 为 4 步 ， 免 疫 维持 周期 为 
8 步 。 


























感染 者 呈 增 加 趋势 的 方 格 和 对 相应 方 格 的 计数 
样本 : ch3-lifegame-sir-sample.zip 
下 载 地 址 : 图 灵 社区 本 书 主 页 




















我 们 将 规则 简化 为 免疫 者 具有 终身 免疫 力 ， 以 此 观察 一 次 性 的 感染 扩 
散 情况 。 这 时 ， 我 们 可 以 用 微分 方程 来 表示 感染 者 人 数 等 〈 轿 攻 E )。 





dsO=-pSO1g 
dt 




















用 时 刻 t 的 S()、Z(?) 和 感染 率 p 来 表示 易 感 者 人 数 


d 
—1(D)=pS(DID -TD 一 
dt Sj、 感染 者 人 数 /Dj、 免 疫 者 人 数 RD) 的 变化 





d 
元 RO=7O 


人 (SO +7T(D+RC)=0 一 一 上 述 3 个 式 子 的 和 





SIR 模型 的 微分 方程 


摘自 维基 百科 SIR 模型 




















这 里 ，SIR 模型 是 以 未 出 现 死 者 为 前 提 的 ， 所 以 没有 计算 总 人 口 (可 
用 的 方 格 数 ) 的 减少 或 增加 。 在 SIR 模型 的 基础 上 增加 潜伏 者 (exposed ) 
就 得 到 了 SEIR 模型 。SEIR 模型 既 可 以 用 微分 方程 表示 ， 也 可 以 用 方 格 表 
示 ( 国 国 g3 )。 
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的 微分 方程 表示 SEIR 模型 














Susceptible ) 一 一 和 SO =m(N—S(1))—bS(1) 7(7) 


ee $50 =bS(OID) (m+a)EC) 


Infected ) 一 一 人 7 =aE(?)—(m+g)/(?) 








Recovered ) - R(1) = g1(?) — mR(?) 











N=S+E+I+R 














t: 时 间 ; m : 出 生 率 和 死亡 率 ; a : 发 病 率 ; 











SEIR 模型 的 微分 方程 
摘自 维基 百科 SEIR 模型 


上 述 模 型 未 考虑 人 员 移 动 ， 因 此 在 正式 仿真 创建 模型 时 还 需要 考虑 这 
些 要 素 再 进行 计算 。 例 如 ， 在 存在 死者 的 模型 中 ， 可 以 用 数理 模型 表示 
HIV 感染 者 体内 免疫 细胞 状态 。 另 外 ， 和 森林 火灾 蔓延 模型 等 使 用 的 也 是 上 
述 方 格 模型 。 
虽然 笔者 讲解 的 是 生命 游戏 这 种 人 工 生命 模型 ， 但 实际 上 人 工 生 命 模 
型 与 数理 分 析 模 型 是 密切 相关 的 。 
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有 限 自 动机 





一 个 模型 中 的 细胞 处 于 某 种 状态 ， 当 它 接收 到 一 个 输入 或 触发 某 种 事 
件 时 ， 状 态 会 在 有 限 的 状态 之 间 转 换 ， 这 就 是 自动 机 。 下 面 就 对 自动 机 进 


行 介绍 。 


要 点 、 色 当 模 型 接收 到 一 个 输入 或 触发 某 种 事件 时 ， 状 态 会 在 有 限 的 状 
态 之 间 转 换 = 有 限 状 态 的 机 器 ( 有 限 状态 机 ) 
@ 有 限 状态 机 又 称 有 限 自动 机 
@ 可 以 用 状态 转换 图 表示 

























































































泌 自动 机 

利用 生命 游戏 中 的 方 格 ( 细胞 ) 来 表示 时 间 的 推移 和 状态 的 变化 ， 进 
而 研究 空间 结构 变化 在 时 间 轴 上 的 发 展 ， 这 一 理论 研究 领域 称 为 元 胞 自动 
机 。 元 胞 自动 机 直译 过 来 是 自动 人 偶 ， 简 单 来 说 ， 就 是 能 够 对 外 界 刺 激 做 
出 反应 的 机 关 人 偶 。 

人 偶 记 住 一 些 状 态 后 ， 在 受到 外 界 刺 激 时 能 够 做 出 不 同 的 反应 。 所 
以 ， 这 种 人 偶 也 叫 作 状态 机 ( state machine )， 如 果 状 态 数 有 限 就 叫 作 有 限 
状态 机 或 有 限 自 动机 ( » 
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通过 改变 输入 和 转换 内 部 状态 ， 机 关 人 偶 的 动作 改变 了 3 次 ( 前 进 、 停 
止 、 后 退 ) 


有 限 自 动机 的 动作 可 以 用 图 来 表示 。 如 图 呈 E 所 示 ， 用 圆圈 表示 状 
态 ， 用 带 箭头 的 直线 连接 两 种 状态 ， 这 样 的 图 称 为 状态 转换 图 。 








状态 转换 图 的 示例 
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状态 转换 图 中 定义 了 起 点 和 终点 ， 输 入 的 结果 在 终点 结束 的 状态 叫 作 
接受 状态 。 算 法 和 系统 都 需要 从 起 点 开始 迁移 ， 并 在 接受 状态 下 结束 。 如 
果 未 在 接受 状态 下 结束 ， 则 意味 着 有 错误 等 导致 状态 异常。 








辐 自动 机 和 语言 理论 











1 于 自动 机 能 够 表示 状态 的 变化 及 其 规则 ， 所 以 它 也 可 以 用 来 表达 语 
言 的 语法 模型 。 在 语言 理论 ”中 ， 字 符 的 集合 称 为 字母 表 ， 字 母 表 中 可 重 
复 的 字符 集合 称 为 字符 串 。 

我 们 用 三 = {0, 1, (, )} 表示 一 个 字母 表 ， 其 中 包含 “001(01)”“010” 
以 及 “(10” 等 元 素 。 这 些 元 素 称 为 在 区 上 的 字符 串 。 由 于 确 中 不 包含 
“2”， 所 以 “021)” 不 是 在 三 上 的 字符 串 。 

对 基因 进行 编码 的 碱 基 序 列 可 以 用 ={A, T, G, C} 的 形式 表示 为 在 区 
上 的 字符 串 ， 组 成 蛋白 质 的 氨基 酸 序 列 可 以 用 = {20 种 氨基 酸 } 的 形式 
表示 为 在 三 上 的 字符 串 。 

另外 , 在 三 上 的 字符 串 集合 称 为 在 三 上 的 语言 ， 记 作 工 。 工 中 包含 的 
字符 串 个 数 记 作 | 也 ， 称 为 工 的 大 小 ( 攻 E 车 ] )。 
















































































L={ATGGGGTGC…., 


TTTCGCCGCTAA…., 
TAGCCCAC:…., 
TGAGG} 








世 和 工 的 示例 








对 于 字母 表 ， 我们 把 如 或 了 OZ(k=2) 称 为 了 2 与 瑟 的 结合 。 它 表示 
把 字母 表 荆 重 世 次 并 联结 到 一 起 的 字符 串 集合 。K 为 整数 ， 当 k=0 时 该 
集合 为 空 集 8 ( )。 























四” 特 指 形式 语言 理论 ， 文 中 的 语言 特 指 形式 语言 。 译 者 注 
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上 为 整数 ， 当 k=0 时 该 集合 为 空 集 8 
摘自 《自动 机 和 语言 理论 ”第 11 页 “定义 1.4” 中 间 部 分 的 两 行 公 王 




















人 们 把 使 用 符号 研究 定义 语言 的 描述 和 生成 规则 这 一 研究 领域 称 为 语 
言 理论 。 这 些 描 述 和 规则 可 以 用 自动 机 表示 。 例 如 语言 ZL 表示 非 负 的 十 进 
制 实 数 ， 这 时 表示 方式 如 匡 EE 到 中 所 示 。 


假设 字母 表 为 5={0, 1, 2,…, 9, .}。 我 们 来 看 在 区 上 的 语言 L。 
L 昱 {qe yx: 用 4 表示 非 负 的 
识别 语言 二 的 机 器 如 下 所 示 。 
机 器 识别 语言 的 理论 就 是 自 
















































































用 左 表 示 非 负 的 十 进 制 实数 ， 用 自动 机 识别 L 











摘自 《自动 机 和 语言 理论 》 第 7 页 和 第 8 页 




















QD 原 资 料 名 为 [ 才 一 卜 也 卜 沁 言语 理论 |， 作 者 山本 真 基 ，2016 年 9 月 著 。 一 一 译 者 注 
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再 举 一 个 例子 。 各 种 编程 语言 中 常用 的 正则 表达 式 也 可 以 用 自动 机 表 
示 ( 妍 殉 ). 


用 自动 机 表示 正则 表达 式 
摘自 《自动 机 和 语言 理论 》 第 12 页 例 2.5 的 表 


正则 表达 式 相应 的 正则 语言 









































WO {we 2* ;w 中 恰好 包含 一 个 1} 
WO 0 {we 2 ;w 中 恰好 包含 两 个 1} 
Z*o {010} oF* {ws 琵 : 丸 中 包含 字符 串 010} 
25*o {010} {we ZY ;w 以 字符 串 010 结束 } 
{0} oZ* UZ*o {1} {we 5+ ;w 由 0 开始 或 以 1 结束 } 





5* 表示 连接 大 于 等 于 0 个 区 的 字符 串 的 集合 





第 3 章 ”| 自动 机 和 人 工 生命 程序 


马尔 可 夫 模 型 





状态 转换 时 ， 下 一 个 状态 只 与 当前 状态 有 关 ， 与 当前 状态 之 前 的 状态 
无 关 ， 这 就 是 马尔 可 夫 过 程 ( Markov process )。 下 面 就 基于 该 过 程 对 马尔 
可 夫 模 型 进行 介绍 。 








要 点 、 6 在 状态 转换 图 中 ， 下 一 状态 只 与 当前 状态 有 关 ， 与 当前 状态 之 
前 的 状态 无 关 = 马尔 可 夫 过 程 
包 图 灵机 


















































邮 志 马尔 可 夫 性 质 和 马尔 可 夫 过 程 


电 3.2 节 介 绍 了 拥有 有 限 个 状态 的 状态 机 。 状 态 机 接收 到 一 个 输入 后 会 
按照 规则 改变 状态 ， 然 后 进入 下 一 个 状态 。 如 果 我 们 从 概率 论 的 角度 思考 
随机 过 程 ， 这 种 状态 变化 的 形式 就 是 一 种 马尔 可 夫 过 程 。 

马尔 卡 夫 过 程 是 具有 马尔 可 夫 性 质 的 随机 过 程 ， 其 特征 是 未 来 状态 的 
条 件 概率 分 布 只 与 当前 状态 有 关 ， 与 过 去 的 状态 无 关 。 


























守 随机 过 程 和 马尔 可 夫 链 

随机 过 程 这 个 词 对 大 家 来 说 可 能 比较 陌生 ， 不 过 它 并 不 难 理解 。 前 天 
介绍 了 元 胞 自动 机 的 状态 会 随 着 时 间 的 推移 发 生变 化 ， 如 果 这 个 状态 变化 
是 随机 发 生 的 ， 那 它 就 是 一 个 随机 过 程 。 

元 胞 自动 机 中 的 状态 集 是 一 个 有 限 的 离散 的 集合 ， 处 于 一 种 由 自然 数 
等 离散 量 构成 的 离散 状态 。 元 胞 自动 机 在 时 间 上 的 变化 也 是 离散 的 。 这 种 
时 间 和 状态 都 离散 的 马尔 可 夫 过 程 称 为 马尔 可 夫 链 ( Markov Chain, MC ) 
( 用 
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随机 过 程 


随机 过 程 > 马尔 可 夫 过 程 > 离散 状态 马尔 可 夫 过 程 > 马尔 可 夫 链 


3.1 节 介 绍 人 工 生命 模型 时 使 用 的 SEIR 模型 就 是 一 个 马尔 可 夫 模 型 。 未 
感染 、 潜 伏 期 、 发 病 期 以 及 恢复 期 这 4 种 状态 是 随机 变化 的 ( 匡 E 有 )- 





SEIR 模型 中 的 4 种 状态 会 随机 变化 


计算 各 个 状态 在 转移 前 后 的 概率 ， 得 到 一 个 由 转移 概率 组 成 的 矩阵 ， 
这 个 矩阵 就 是 转移 概率 和 矩阵 ( transition matrix， 又 称 跃迁 矩阵 )。 

如 果 加 本 天 加 的 转移 概率 矩阵 的 行 数 与 列 数 相等 ， 该 转移 概率 矩阵 就 
称 为 步 转移 概率 和 矩阵 ， 即 转移 到 第 步 时 的 转移 概率 可 以 用 一 步 转移 概 
率 和 矩阵 的 次 方 表示 。 
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转移 概率 矩阵 的 图 


在 非 周期 状态 的 不 可 约 马 尔 可 夫 链 中 , 上 步 转移 概率 会 收敛 为 一 个 每 
一 列 都 不 同 的 平稳 分 布 ) 


0.4 0.6 0 
0.8x0.8 0.8x0.2+0.2x0.6 0.2X0.4 0 
0 0.6X0.6 0.6X0.4+0.4x0.5 0.4x0.5 
0.5X0.6 0 0.5X0.5 0.5x0.5+0.5x0.4 
0.6X0.8 十 0.4X0.6 0.6X0.2 0 0.4x0.4 
0.64 0.28 0.08 0 
0 0.36 0.44 0.2 
0.3 0 0.25 0.45 
0.72 0.12 0 0.16 


…xP=P 《和 任意 两 次 的 Pi 都 不 相同 











< 可 以 求 出 平稳 分 布 x 








转移 概率 矩阵 了 、k 步 转移 概率 、 平 稳 分 布 x 
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在 此 ， 我 们 不 再 深入 探讨 矩阵 计算 和 特征 值 。 不 过 ， 将 转移 概率 矩阵 
多 次 相 乘 后 就 能 得 到 P*"。 另 外 ， 利 用 单位 矩阵 进行 计算 后 ， 我 们 可 以 把 转 
移 概 率 和 矩阵 转换 为 平稳 分 布 x 的 矩阵 ( 严格 来 说 是 行 向 量 )。 

关于 模型 的 实际 应 用 ， 有 通过 在 每 个 状态 设置 一 个 成 本 值 ， 随 着 状态 
的 转换 ， 成 本 逐渐 累加 ， 以 此 来 预测 总 成 本 的 模型 ， 还 有 通过 计算 平稳 分 
布 得 到 广告 投放 效果 等 价值 的 模型 。 
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状态 驱动 智能 体 





下 面 来 介绍 状态 驱动 智能 体 。 状 态 驱动 智能 体 通过 有 限 自动 机 的 输入 
触发 状态 转换 ， 实 现 系 统 运 行 。 











要 点 、 包 有限 自动 机 = 有 限 状 态 机 
名 基于 多 智能 体 构建 环境 
名 可 以 把 环境 看 成 一 种 智能 体 
名 常 在 棋盘 游戏 等 游戏 人 工 智能 中 使 用 
名 智能 体 的 构建 可 以 使 用 面向 对 象 技术 和 状态 模式 











































































































电 游戏 人 工 智 能 

前 面 在 介绍 人 工 生命 模型 时 也 提 到 了 游戏 人 工 智能 ， 大 家 可 能 会 觉得 
其 中 有 些 内 容 偏离 了 人 工 智能 的 要 素 。 不 过 ， 我 们 可 以 将 元 胞 自动 机 的 动 
作 主 体 想 象 成 一 个 游戏 角色 或 场景 的 组 成 要 素 ， 然 后 使 用 有 限 自动 机 (有 
限 状态 机 ) 使 它们 成 为 角色 的 一 部 分 ， 以 此 实现 游戏 中 的 人 工 智能 。 

我 们 把 这 种 人 工 智 能 的 形态 称 为 游戏 人 工 智能 。 有 人 可 能 会 觉得 游戏 
人 工 智能 不 算 人 工 智能 。 然 而 ， 这 个 程序 表 在 代替 人 类 的 行为 ， 并 且 在 不 
断 地 追求 动作 的 真实 感 。 从 这 一 点 来 说 ， 我 们 也 不 能 将 它 排除 在 人 工 智能 
之 外 。 下 面 就 来 具体 进行 介绍 。 












































蕊 智能 

我 们 把 游戏 中 的 单个 状态 机 或 结合 多 个 状态 机 的 系统 称 为 智能 体 。 智 
能 体 之 间 通 过 交换 信息 或 者 相互 作用 来 为 游戏 玩家 传递 信息 并 带 来 刺激 。 

这 里 的 智能 体 特 指 软件 智能 体 。 

软件 智能 体 的 特性 如 图 辐 量 上 所 示 ， 分 别 是 驻 留 性 、 自 治 性 、 社 会 性 
和 反应 性 。 
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意 启动 

人 触发 

足 条 件 时 会 转换 为 运行 状态 
特别 指示 


他 智能 体 协 作 













































































软件 智能 体 的 特性 





为 了 便于 管理 ， 我 们 可 以 使 用 多 个 智能 体 构建 多 智能 体系 统 ， 系 统 中 
每 个 智能 体 都 有 自己 的 程序 进程 ， 它 们 会 按照 自己 的 运行 方式 异步 独立 运 
行 。 智 能 体 适合 采用 面向 对 象 程序 设计 ，Java 语言 的 GoF 设计 模式 中 也 
包含 了 一 种 状态 模式 。 

在 游戏 中 ， 如 果 用 户 执行 某 些 操作 引起 了 状态 机 的 状态 转换 ， 这 种 情 
况 就 称 为 触发 事件 。 智 能 体会 转换 为 运行 状态 ， 所 以 我 们 把 这 类 智能 体 称 
为 状态 驱动 智能 体 。 
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蕊 棋盘 游戏 
现在 大 家 应 该 逐渐 意识 到 ， 为 游戏 设计 和 构建 智能 体 可 以 实现 智能 体 
与 人 类 玩家 互动 的 机 制 。 棋 盘 游 戏 就 是 一 种 很 容易 理解 的 智能 体 应 用 示例 。 
其 盘 游戏 中 具有 代表 性 的 游戏 是 按照 特定 规则 在 棋盘 上 落 子 的 黑白 
棋 。 图 灵 在 1950 年 左右 曾 写 了 一 个 国际 象棋 程序 。 
在 黑白 棋 程序 中 引入 前 面 介 绍 过 的 元 胞 自动 机 ， 就 可 以 轻松 创建 计算 
机 玩家 了 。 
黑白 棋 的 游戏 规则 很 简单 。 根 据 这 些 规 则 ， 按 照 时 间 顺 序 创建 程序 即 
可 (BEV ). 
。 如 果 方 格 中 已 有 己方 棋子 ,不 做 任何 处 理 
。 如 果 方 格 中 已 有 对 方 棋子 ， 在 其 旁边 的 方 格 中 搜索 落 子 位 置 
o 如 果 对 方 棋子 的 相 邻 方 格 中 已 有 己方 模子， 那么 对 侧 方 格 是 否 为 空 
四 如 果 对 侧 方 格 为 空 ， 放 置 已 方 棋子 
四 如 果 对 侧 方 格 已 有 对 方 棋子 ， 那 么 更 远 的 方 格 是 否 为 空 
。 如 果 为 空 ， 放 置 已 方 棋 子 ， 将 被 夹 住 的 棋子 翻转 为 已 方 棋子 
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红色 标记 最 后 放置 黑子 的 位 
”填充 的 方 格 是 按照 规则 可 以 放 子 的 位 






























































。 左 例 中 ， 无 论 在 什么 位 置 落 子 ， 最 多 只 有 1 个 
棋子 能 够 翻转 为 上 























落 子 时 的 模式 图 





在 某 些 情况 下 ， 落 子 的 位 置 可 能 存在 多 处 。 这 时 就 需要 根据 落 子 时 翻 
转 对 方 棋子 的 个 数 来 决定 最 佳 的 落 子 位 置 。 也 就 是 说 ， 搜 索 方 格 时 需要 统 
计 遇 到 对 方 棋子 的 次 数 ， 若 次 数 一 样 则 可 随机 落 子 。 

















口 棋盘 游戏 和 博弈 论 

这 种 游戏 模式 能 够 计算 出 游戏 部 署 中 出 现 的 所 有 状态 ， 所 以 称 为 完全 
言 息 博弈 。 国 际 象棋 、 将 棋 和 围棋 都 是 完全 信息 博弈 。 完 全 信息 博弈 的 
游戏 人 工 智能 可 以 计算 和 列 出 所 有 游戏 部 署 ， 并 从 中 选择 让 自己 获胜 的 
部 署 。 

计算 游戏 部 署 时 间 上 的 步 数 以 及 空间 上 的 广度 需要 用 到 庞大 的 计算 资 
源 (参照 JE )。 如 果 每 走 一 步 都 要 计算 所 有 部 署 ， 就 会 导致 程序 停止 
运行 , 或 者 延长 人 类 玩家 的 等 待 时 间 。 所 以 在 对 战 类 棋盘 游戏 中 ,计算机 
的 下 棋 水 平 是 有 限 的 。 不 过 我 们 也 可 以 利用 这 一 点 ， 按 照 游戏 部 署 的 步 
数 ， 设 置 游戏 难度 。 


















































CPU 功率 、 主 存储 器 的 容量 和 辅助 
存储 器 的 容量 等 。 也 称 为 计算 资源 。 
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国际 象棋 的 胜 负 不 存在 任何 偶然 性 ， 游 戏 部 署 是 确定 的 ， 棋 局 是 可 以 被 
预测 的 。 因 为 是 两 个 决策 者 的 对 战 游戏 (他们 的 策略 都 是 有 限 的 ， 二 者 的 得 
失 之 和 总 为 零 )， 所 以 这 类 游戏 称 为 二 人 有 限 零 和 对 策 (two-person finite zero- 
sum game )。 在 跳棋 和 黑白 棋 中 ， 所 有 的 游戏 部 署 都 是 明确 的 ， 计算机 可 以 存 
储 所 有 能 在 游戏 初期 就 决定 胜 负 的 信息 ， 所 以 人 类 很 难 战 胜 计算 机 。 

20 世纪 末期 , 计算 机 战胜 了 国际 象棋 世界 冠军 ,但 是 到 2016 年 ， 人 
们 也 没有 彻底 弄 明 白 国 际 象棋 的 所 有 游戏 部 署 。 现 在 主要 利用 搭建 好 的 序 
盘 终 盘 步 又 数据 库 和 探索 程序 (参照 5.2 节 ) 来 进行 对 战 。 

21 世纪 初期 , 计算 机 战胜 了 围棋 和 将 棋 的 顶级 棋 手 。 它 通过 在 数据 
库 和 探索 程序 的 基础 上 加 入 有 监督 学 习 (supervised learning ) ( 参照 7.2 
节 ) 和 强化 学 习 (参照 8.2 节 ) 等 机 器 学 习 方 法 来 进行 对 战 。 

完全 信息 博弈 这 个 词 也 在 博弈 论 中 使 用 ， 数 学 、 经 济 学 等 领域 都 会 用 
到 该 词 。 

在 经 济 学 等 社会 学 中 有 一 个 名 为 囚徒 困境 的 问题 。 办 徒 困境 是 博弈 
论 中 的 不 完全 信息 博弈 ， 它 也 是 一 种 同时 行动 博弈 。 但 是 ， 由 于 博弈 双方 
的 选项 及 选择 结果 都 是 确定 的 ， 所 以 内 徒 困 境 也 是 所 谓 的 完美 信息 博弈 
(BENE ). 































































































| “完全 信息 博 弃 





博弈 论 的 分 类 示例 


口 基于 复杂 智能 体 的 游戏 

游戏 系统 进一步 完善 后 出 现 的 模拟 城市 等 城市 建造 游戏 和 策略 模拟 类 
的 对 战 游戏 等 都 采用 了 智能 体 游戏 环境 。 模 拟 城 市 等 模拟 游戏 由 多 个 智能 
体 构成 ,通过 智能 体 之 间 复 杂 的 相互 作用 ， 推 进 游戏 在 时 间 轴 上 的 发 展 。 
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模拟 城市 的 智能 体系 统 有 四 层 结构 : 第 一 层 用 于 计算 道路 和 铁路 等 因 
素 的 大 小 及 因素 间 的 关系 ; 第 二 层 用 于 计算 人 口 密度 、 交 通 状 况 、 环 境 污 
染指 数 、 地 价 以 及 犯罪 率 ; 第 三 层 用 于 计算 地 形 特征 的 影响 ; 第 四 层 用 于 计 
算 警 察 局 、 消 防 局 、 人 口 增长 率 ， 还 有 警察 局 的 影响 力 和 消防 局 的 影响 力 。 

从 第 一 层 到 第 四 层 ， 粒 度 越 来 越 大 ， 影 响 范围 也 越 来 越 广 ( 匡 EE )。 

我 们 量化 某 些 因 素 的 影响 程度 后 可 以 得 到 影响 图 ， 特 别 是 第 三 屋 和 第 
四 层 的 影响 图 。 像 热 图 一 样 ， 影 响 图 可 以 定义 一 些 正 相关 或 负 相 关 的 系 
数 ， 并 将 其 作为 影响 城市 发 展 速度 的 作用 因子 来 吸引 或 驱逐 人 们 ， 从 而 增 
加 城市 人 口 或 者 减少 城市 人 口 。 
具体 来 说 ， 根 据 人 口 密度 、 地 价 和 警察 局 的 影响 力 可 以 计算 犯罪 率 








在 模拟 城市 中 使 用 影响 图 
模拟 城市 的 多 层 结构 模型 





模拟 城市 ( 四 层 结构 ) 
摘自 游戏 人 工 智能 系列 讨论 会 第 7 回 “The Sims 中 的 社会 模拟 "” 第 53 页 























中 原 资料 名 为 「 社 会演 六 工 志 一 涩 了 上 大学 力 几 人 一 和 上 一 一 译 者 注 
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模拟 城市 中 的 犯罪 率 的 计算 公式 
犯罪 率 =( 人 口 密度 )-( 地 价 )-( 警察 局 的 影响 力 ) 
地 价 =( 距离 参数 )+( 铁路 参数 )+( 运输 参数 ) 
































医 EEg29 模拟 城市 中 犯罪 率 的 计算 公式 
摘自 游戏 人 工 智能 系列 讨论 会 第 7 回 “The Sims 中 的 社会 模拟 ”第 44 页 











主人 公 在 场景 之 间 移 动 的 角色 扮演 游戏 ， 以 及 角色 能 够 自主 行动 的 射 
击 游戏 使 用 的 都 是 上 述 多 智能 体系 统 ( )s 





时 间 
与 状态 变化 相对 应 的 ss 
条 件 分 支 和 行为 确定 





回民 区 下 自主 型 人 工 智能 的 模型 图 


摘自 游戏 人 工 智能 系列 讨论 会 第 7 回 “The Sims 中 的 社会 模拟 ”第 115 页 














时 权 重 和 寻找 最 优 解 


草 


在 特定 的 数据 中 寻找 最 优 解 的 功能 在 数据 分 析 系 统 等 人 
工 智 能 程序 中 变 得 越 来 越 重要 。 回 归 分 析 ( regression 
analysis ) 中 的 最 优 解 和 相似 度 等 指标 的 计算 是 实现 该 功 
能 非常 重要 的 因素 。 本 章 , 笔者 会 对 回归 分 析 的 基本 方法 、 
解法 以 及 常用 的 相似 度 计算 方 法 进行 说 明 。 
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线性 问题 和 非 线 性 问题 





下 面 就 对 线性 问题 和 非 线性 问题 进行 比较 说 明 。 


要 点 、@ 易 解 问题 和 难 解 问题 
名 线性 问题 易 解 ， 非 线性 问题 难 解 
名 线性 问题 ( 线性 ) 和 线性 可 分 








和 两 个 变量 之 间 的 相关 性 





在 包括 人 工 智 能 在 内 的 多 个 领域 ， 当 根据 大 量 数据 进行 某 些 预 测 时 ， 
我 们 常常 需要 通过 剖析 和 比较 数据 中 的 两 个 因素 来 掌握 数据 的 变化 趋势 。 











在 构建 一 个 自动 分 析 程 序 时 ， 首 先 需要 讨论 的 是 通过 收集 的 数据 掌握 的 数 
据 变化 趋势 可 否 用 于 处 理 未 知 数据 ， 以 及 能 否 使 用 算数 解法 。 在 讨论 数学 
模型 和 统计 模型 时 ， 这 是 极为 重要 的 第 一 步 。 

我 们 把 数据 分 析 过 程 中 的 数据 构成 要 素 称 为 变量 。 在 根据 数据 计算 变 
化 趋势 或 已 经 得 到 数据 的 变化 趋势 时 ， 我 们 可 以 使 用 一 组 或 多 组 变量 表示 
趋势 ， 也 可 以 使 用 由 变量 组 成 的 计算 公式 表示 趋势 。 这 里 的 一 组 或 多 组 变 
量 以 及 计算 公式 就 叫 作 特 征 ( 轿 世 gI )。 



































变量 4 | 变量 B| … 
0 SS 
~ 人 O y=ax +b 
O 


从 表格 中 选择 两 个 变量 ( 特征 )， 绘 制 散 点 图 并 创建 模型 
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沁 线性 问题 


如 果 要 描述 有 两 个 变量 的 一 组 变量 值 的 变化 趋势 ， 最 简单 的 做 法 是 把 两 
个 变量 分 别 设 为 横 坐 标 轴 和 纵 坐标 轴 ， 通 过 使 用 两 个 变量 值 的 交点 坐标 来 给 
制 散 点 图 ， 观 察 数据 分 布 。 有 时 会 出 现 散 点 分 布 大 致 呈 一 条 直线 的 情况 ， 这 
时 我 们 就 可 以 使 用 线性 函数 ， 即 一 次 函数 来 表达 两 个 变量 值 之 间 的 关系 。 

当 可 以 使 用 线性 函数 来 表示 数据 点 的 分 布 时 ， 在 一 组 线性 约束 条 件 下 
能 够 求解 目标 函数 的 问题 就 称 为 线性 规划 问题 。 如 果 把 线性 规划 问题 中 的 
变量 限制 为 整数 ， 这 个 问题 就 称 为 整数 线性 规划 问题 。 背 包 问 题 就 是 一 个 
整数 线性 规划 问题 ( 回 世 ED )。 
























































， 每 种 物品 都 有 
状态 称 为 给 定 



































情况 下 ， 如 介 


背包 容量 不 能 扩充 。 





背包 问题 

















男 外 ， 如 果 使 用 线性 函数 可 以 将 散 点 图 中 的 数据 点 ( 两 类 样本 ) 完全 
分 开 ， 我 们 就 称 这 些 数据 是 线性 可 分 的 ， 可 以 使 用 线性 函数 求解 的 问题 称 
为 线性 问题 ( )。 




















线性 可 分 的 散 点 图 
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口 映射 
当 两 个 变量 值 之 间 存 在 对 应 关系 时 ， 我 们 也 可 以 说 这 两 个 变量 值 之 间 
具有 函数 关系 。 这 种 对 应 关系 就 称 为 映射 。 用 4 和 B 表示 变量 值 的 集合 ， 





如 果 集 合 4 中 的 任意 元 素 在 集合 B 中 都 有 唯一 的 元 素 与 之 对 应 ， 这 样 的 映 
射 就 叫 单 射 。 如 果 集合 中 中 的 任意 元 素 在 集合 4 中 都 存在 某 些 元 素 与 之 对 
应 ， 这 样 的 映射 就 叫 满 射 。 根 据 散 点 图 ， 如 果 集 合 4 中 的 元 素 能 与 集合 B8 
中 的 元 素 一 一 对 应 ， 这 样 的 映射 就 叫 双 射 〈 国 世 E )- 






































单 射 、 满 射 、 双 射 


蕊 非 线 性 问题 

当 两 个 变量 值 的 坐标 点 分 布 不 能 用 线性 函数 表示 时 ， 可 以 使 用 映射 将 
其 转化 为 线性 分 布 。 如 果 不 能 转化 ,这些 数据 就 是 非 线 性 分 布 的 〈 医 加 约 )。 
处 理 非 线性 分 布 的 问题 就 是 非 线 性 问题 。 














非 线性 分 布 示例 
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对 于 非 线性 问题 , 我 们 可 以 使 用 非 线 性 规划 ( Nonlinear Programming， 
NLP ) 来 求解 。 

如 果 两 个 变量 值 的 坐标 点 分 布 可 以 使 用 凸 函 数 和 四 函数 ( 芒 下 本 ) 表 
示 ， 这 类 问题 就 称 为 凸 规划 ， 我 们 可 以 采用 吓 优 化 方法 进行 求解 。 

非 凸 函数 能 被 分 解 为 可 以 使 用 分 支 定 界 法 求解 的 线性 规划 问题 和 凸 规 
划 ， 我们 可 以 将 非 凸 函数 视 为 二 者 的 组 合 来 求解 。 

















对 于 集合 内 的 每 一 对 点 ， 
如 果 连 接 该 对 点 的 直线 段 上 的 
每 个 点 也 在 该 集合 内 ， 这 些 点 
构成 的 集合 就 是 凸 集 。 


对 于 集合 内 的 每 一 对 点 ， 
2 
全 在 该 集合 内 ， 这 些 点 构 
成 的 集合 就 是 革 吕 入 

















凸 集 、 凸 函数 、 凹 函数 
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回归 分 析 





下 面 笔者 来 对 回归 分 析 进 行 说 明 。 

















要 点 、@ 用 函数 曲线 拟 合 趋势 = 回归 
名 回归 分 析 : 线性 回归 、 多 项 式 回归 、 逻 辑 回 归 、 多 元 回归 
包 使 用 最 小 二 乘法 进行 拟 合 






















































































车 求解 线性 问题 
想 要 通过 分 析 两 个 变量 值 之 间 的 关系 来 掌握 数据 的 变化 趋势 并 以 此 来 预 
测 未 知 数据 时 ， 最 常用 的 方法 就 是 回归 分 析 。 在 统计 学 中 ， 我 们 可 以 使 用 
统计 检验 来 确认 回归 分 析 结 果 的 准确 性 ， 或 者 通过 置信 区 间 来 表示 误差 。 
下 面 笔者 就 来 介绍 几 种 分 析 方 法 ， 看 看 如 何 根据 两 个 变量 值 来 掌握 数 
据 变化 趋势 。 







































































蜀 回归 分 析 

回归 分 析 是 利用 函数 对 数据 进行 曲线 拟 合 的 方法 。 拟 合 是 指 确定 一 个 
使 拟 合 误差 降 到 最 小 值 的 函数 。 如 果 残 差 服 从 正 态 分 布 ， 得 到 的 函数 就 称 
为 一 般 线 性 模型 ( General Linear Model，GLM )。 如 果 残 差 可 以 任意 分 布 ， 
得 到 的 函数 就 称 为 广义 线性 模型 ( Generalized Linear Model，GLM )。 需 
要 注意 ， 二 者 虽然 缩写 相同 但 含义 不 同 。 











口 线性 回归 

回归 分 析 中 最 简单 且 最 基本 的 是 一 元 回归 分 析 。 一 元 回归 分 析 也 称 为 
一 元 回归 或 线性 回归 。 身 高 和 体重 的 关系 、 某 城市 出 租 公 寓 的 房间 面积 和 
租金 的 关系 都 是 线性 回归 的 例子 。 线 性 回归 能 让 我 们 直观 认识 到 变量 之 间 
的 关系 。 
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如 果 散 点 图 中 点 的 分 布 近似 于 一 条 直线 ， 即 两 个 变量 具有 线性 关系 ， 
那么 这 条 直线 就 叫 作 回归 直线 。 对 于 直线 y=ax+5b， 我 们 能 够 得 到 直线 的 
斜率 a 和 斜率 a 在 y 轴 上 的 截 距 5 (也 是 初始 值 )， 所 以 对 于 任意 一 个 x， 
我 们 都 能 得 到 与 之 相对 应 的 y。 这 时 x 叫 作 自 变量 , y 叫 作 因 变 量 。 














品 求 线性 回归 方程 的 例子 

用 自 变 量 x 表示 房间 面积 ， 因 变量 y 表示 房租 ， 根 据 房间 面积 和 租金 
的 对 应 关系 表 ， 我 们 能 够 预测 任意 面积 的 房间 的 租金 。 这 时 ,绘制 散 点 图 
就 相当 于 通过 线性 回归 方程 求解 。 

在 线性 回归 中 ， 只 要 计算 出 a 和 5 即 可 求 出 线性 回归 方程 ( 世 E 娄 | ) 





























n n n 
nD x -2 
全 天 =1 大 =1 


k=1 三 ] pb 


nn nn 2 
2 
n > N= > NE 
Kk=1 k=1 


n nn n 天 
2 
D2 -Dp DA 
| k=1 = 和 k=1 





a 








求 线性 回归 方程 


通常 ， 我 们 会 根据 线性 回归 方程 式 y=a+bx+s 得 到 残 差 的 公式 ， 求 
出 使 残 差 平 方 和 EE 最 小 (也 就 是 E 为 0) 的 a 与 5 的 值 。 这 里 把 E 称 为 目 
标 函 数 ( 与 目标 变量 ， 即 因 变量 的 含义 不 同 )。 

对 a 和 5b 求 偏 导 ， 建 立 联 立方 程 组 ,， 求 出 方程 组 的 解 得 到 4a 与 5 的 
值 。 由 于 a 与 5 和 x 与 y 是 相互 独立 的 ， 所 以 我 们 可 以 直接 通过 求 偏 导 来 
忽略 求 导 时 的 复杂 性 ( 回 世 gg ). 

















-0 -ar- 呆 
1 


至 -yooo+2o0-y)=0 
了 El 


县 


oF nn 
-一 = 2b+2(ax,—y,))=0 
i 2 (ax; —»)) 





求 出 偏 导 后 的 联 立 方程 组 
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求 出 偏 导 后 建立 联 立方 程 组 求解 ， 就 可 以 将 这 个 公式 变形 为 前 面 分 别 
求 a 与 5b 的 公式 。 


线性 回归 中 只 有 一 个 自 变 量 


呢 ? 如 曙 


像 线性 























， 那 么 当 自 变量 增加 时 函数 又 会 怎样 变化 











BE 回归 那 检 














加 PS9 那样。 


线性 回归 


y=a+t+pxte 


多 元 回归 


y=QA+Pa+yx +e 
































变量 增加 的 情况 
为 了 与 线性 回归 


回归 分 析 。 由 于 自 


示 。 但 是 ， 














归 变量 增加 为 如 和 六 











# 用 自 变 量 和 因 变 量 表示 ， 多 元 回归 公式 就 会 变 成 





相对 应 ， 我 们 把 包括 多 个 自 变 量 的 回归 分 析 称 为 多 元 
变量 有 多 个 ， 所 以 我 们 无 法 用 线性 回归 中 的 二 维 图 来 表 
方程 的 解 和 解法 与 线性 回归 相同 。 
虽然 可 以 使 用 线性 回归 的 方法 求解 ， 但 由 于 多 元 回归 中 存在 多 个 自 变 




















量 ， 所 以 很 难 实现 可 视 化 。 为 了 便于 可 视 化 ， 我 们 可 以 使 用 主 成 分 分 析 
(参照 7.1 节 ) 降 维 ， 这 村 
变量 的 个 数 远 多 于 样本 数 
行 数 小 于 列 数 的 情况 ， 这 
( Principal Component Regression ，PCR )， 以 及 它 的 改进 版 偏 最 小 二 乘 回归 
( Partial Least Squares，PLS ) ( 参照 加 IE )- 











就 能 在 二 维 平面 上 绘制 数据 点 了 。 特 别 是 在 自 
的 情况 下 ， 也 就 是 用 和 矩 阵 表 示 观 测 数 据 时 和 矩阵 的 
时 可 以 使 用 让 3 














FE 成 分 分 析 降 维 的 主 成 分 回归 分 析 
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和 仿 最 小 二 秒 品 月 


在 汉语 中 有 多 个 名 称 ， 也 叫 作 PLS 
回归 或 部 分 最 小 二 乘 回归 。 











吉 自 变 量 个 数 增加 后 的 不 便 之 处 

自 变量 个 数 的 增加 会 导致 回归 模型 不 稳定 ， 甚 至 会 出 现 得 不 到 解 的 情 
况 。 回 归 分 析 的 前 提 是 自 变 量 之 间 线 性 独立 ， 但 是 随 着 自 变 量 个 数 的 增 
加 ， 会 出 现 一 些 自 变量 之 间 存 在 相关 性 的 情况 。 这 种 现象 称 为 多 重 共 线 性 
问题 。 在 社会 学 领域 的 调查 数据 以 及 生物 化 学 、 分 子 生 物 学 等 生命 科学 领 
域 的 测量 数据 中 ， 常 常会 存在 多 重 共 线 性 。 前 面 介绍 的 偏 最 小 二 乘 回 归 以 
及 将 在 4.3 节 中 介绍 的 Ll 正则 化 (1asso ) 等 方法 都 可 以 解决 多 重 共 线 性 


问 题 [oe] 


























吕 多 项 式 回 归 

线性 回归 的 回归 方程 是 一 个 线性 函数 ， 所 以 自 变 量 的 次 数 为 1。 如 果 
散 点 图 呈 曲 线 趋势 ， 在 回归 时 可 以 通过 增加 自 变 量 的 高 次 项 来 进行 拟 合 。 
大 家 或 许 会 觉得 有 点 烦琐 ， 和 加 区 量 串 的 多 项 式 回归 也 是 一 种 
线性 回归 方法 。 


多 项 式 回归 方程 示例 
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4 系列 1 


一 一 多 项 式 ( 系列 1 ) 


y= 1.0511x2-0.6211x+ 6.0817 





多 项 式 回 归 的 使 用 示例 


口 过 拟 合 的 次 端 

通过 增加 自 变 量 的 高 次 项 ， 多 项 式 回 归 也 能 进行 曲线 回归 。 现 在 我 
们 来 思考 一 个 问题 : 只 要 增加 高 次 项 就 能 得 到 任意 分 布 的 拟 合 曲线 吗 ? 实 
际 上 ， 增 加 高 次 项 确实 能 使 残 差 趋 近 于 零 。 但 是 ， 通 过 这 种 方法 得 到 的 模 
型 在 预测 未 知 数据 时 的 偏差 较 大 ， 这 种 情况 称 为 过 拟 合 (overfitting )。 所 
以 在 进行 回归 分 析 时 ， 尽 量 使 用 低 维 数据 模型 以 避免 过 拟 合 ， 这 一 点 非常 
重要 。 











最 小 二 乘法 

在 回归 分 析 中 ,我 们 可 以 通过 残 差 最 小 化 来 得 到 最 佳 拟 合 曲线 的 函 
数 。 这 时 最 常用 的 方法 就 是 最 小 二 乘法 。 如 回 区 是 网 所 示 ， 最 小 二 乘法 就 
是 要 使 公式 中 的 残 差 平方 和 e 降 到 最 小 值 。 
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残 差 平方 和 e 的 计算 公式 


e= YI)-») 











最 小 二 乘法 公式 和 模型 图 


最 小 二 乘法 也 可 以 采用 线性 回归 中 使 用 的 求 出 偏 导 后 解 联 立 方程 组 的 
方式 来 求解 。 但 是 ， 如 果 自 变量 个 数 增加 或 模型 为 非 线 性 函数 ， 求 解 过 程 
就 会 变 得 非常 复杂 。 在 这 种 情况 下 我 们 可 以 使 用 矩阵 解法 。 设 为 自 变 
量 ， 回 归 系 数 为 o,ftx) 就 可 以 像 医 天目 那样 表示 出 来 。w 右上 角 的 T 
表示 转 置 矩阵 。 这 样 就 可 以 利用 矩阵 来 表示 自 变 量 x 和 回归 系数 w 了。 








w 
f(x)=a+ Bx +yx,= 上 [2 =@wX (Co =1) 








最 小 二 乘法 的 矩阵 求解 





我 们 也 可 以 用 矩阵 表示 残 差 平方 和 。 另 外 ， 用 抢 阵 表示 因 变 量 ” 可 以 
得 到 残 差 平方 和 瑟 的 公式 。 具 体 如 回 思 加 加 所 示 。 








E=(Y-@'X)(Y-w'X) 


用 矩阵 表示 残 差 平方 和 
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和 线性 回归 一 样 ， 对 w 的 各 个 自 变量 求 偏 导 ， 并 使 其 分 别 等 于 0， 
由 此 构建 的 矩阵 方程 如 加 本 天 图 所 示 。 这 个 矩阵 方程 称 为 正规 方程 。 解 
中 的 方程 就 能 求 出 回归 系数 w。 








XXw =XY 





正规 方程 


将 正规 方程 变形 为 w =(XX)-'X' 了 后 ， 直 接 求 解 半 义 的 逆 和 矩阵 也 能 
求 出 回归 系数 w。 但 是 ,不 是 所 有 的 矩阵 都 有 逆 矩 阵 ， 所 以 我 们 通常 使 用 
QR 分解 (X=QR) 和 奇异 值 分 解 等 矩阵 分 解 算法 来 求 回 归 系 数 w。 例 如 
R 语言 中 有 相应 的 函数 可 以 完成 QR 分 解 ( 医 世 中 )。 














n 列 m 列 n 列 


| -| 








0 为 m 阶 正 RR 为 mxn 阶 上 三 角 和 矩 阵 
( 007 为 单 » ) (左下 角 所 有 的 元 素 都 是 0 ) 


















































QR 分 解 图 例 


R 语言 中 的 QR 分 解 示 例如 晤 这 沈 硬 | 所 不。 





EE 区 本 QR 分 解 示例 





x <- matrix(1:36，9) # 生成 一 个 9 行 4 列 的 矩阵 


rval <= gr tc 








qr.Q(qrval) # 对 x 进行 QR 分 解 ， 得 到 和 矩 阵 O 














qr.R(qrval)  # 对 x 进行 QR 分 解 ， 得 到 和 矩 阵 R 
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霹 逻辑 回归 
逻辑 回 肯 和 多 项 式 回归 一 样 属于 广义 线性 模型 ， 可 以 使 用 回回 国贸 中 
的 模型 进行 函数 的 曲线 拟 合 。 

















wh tt Ft BN +E 


1 一 2 
y=pPxt+e 





逻辑 回归 中 使 用 的 模型 公式 


从 回忆 加 而 的 设 辑 回归 模型 中 我 们 也 能 看 到 ， 对 线性 回归 的 因 变 量 加 
以 变换 就 能 得 到 逻辑 回归 。 把 医 开 三 轴 上 而 的 公式 改写 成 下 面 的 形式 ， 就 
可 以 使 用 线性 回归 中 的 方法 求解 逻辑 回归 。 

对 因 变 量 施加 的 变换 称 为 logit 变换 ( 又 称 对 数 单位 转换 )， 用 logit 
函数 表示 。l1ogit 函数 可 以 将 输入 区 间 为 (0, 1) 的 值 转换 为 整个 实数 范围 
(一 , o) 的 值 ，logit 函数 也 是 logistic 函数 的 反 困 数 。 

利用 logit 变换 得 到 的 y' 的 式 子 ， 取 logit 函数 的 反 函 数 也 就 是 logistic 
函数 ， 就 可 以 得 到 因 变 量 的 预测 模型 ( BE )。 










































































区 尼 枉 上。 用 logistic 函数 表示 因 变量 
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下 面 笔者 来 对 加 权 回 归 分 析 进 行 说 明 。 














要 点 、 久 普通 的 最 小 二 乘法 对 异常 值 非常 敏感 
包 调整 权重 提高 灵活 性 
包 LOWESS、 偏 最 小 二 乘 回归 
包 L2 正则 化 、L1 正则 化 





























口 最 小 二 乘法 的 改进 

在 4.2 节 中 笔者 介绍 了 使 用 最 小 二 乘法 解 回归 方程 的 方法 ， 但 是 最 小 
二 乘法 对 异常 值 非常 敏感 。 如 果 数 据 中 存在 异常 值 ， 异 常 值 就 会 影响 回归 
线 ， 导 致 回归 方程 对 未 知 数据 的 预测 能 力 降低 〈 泛 化 能 力 较 差 )。 为 了 解 
决 这 个 问题 ， 我 们 可 以 为 异常 值 添加 惩罚 项 或 剔除 异常 值 。 

















HLOWESS 

LOWESS ( Locally Weighted Scatterplot Smoothing， 局 部 加 权 回 归 散 
点 平滑 法 ) 是 一 种 使 用 局 部 加 权 回 归 函 数 进行 平滑 处 理 的 回归 方程 的 推导 
方法 。 为 每 个 数据 点 (x y)) 确定 一 个 区 间 ， 在 任意 指定 的 区 间 d(x) 内 ， 从 
最 小 的 x 开始 依次 递增 ,计算 最 近邻 点 ， 每 一 点 x 的 数值 都 是 用 临近 数据 
进行 加 权 回 归 得 到 的 ， 以 此 计算 各 个 数据 点 的 权重 w ( ), 

以 鲁 棒 局 部 加 权 回 归 (Robust LOWESS ) 作为 平滑 方法 时 ， 可 以 通过 
设置 权重 系数 w 来 剔除 异常 值 。 首 先 计算 平均 绝对 偏差 (MAD )， 如 果 残 
差 六 超过 平均 绝对 偏差 的 6 倍 ， 就 将 权重 w 设 为 0 ( )。 
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LOWESS 的 权重 公式 ( 添加 ) 


用 /|<0MAD 
局 =1Q-E | 
6MAD | 六 | 三 6MAD 


MAD= median(| 7+|) 
MAD 表示 残 差 的 平均 绝对 偏差 











和 鲁 棒 局 部 加 权 回归 的 权重 公式 ( 添加 ) 


对 上 面 得 到 的 权重 系数 w 和 自 变 量 x 进行 内 积 运 算 ， 校正 对 应 的 y。 
也 就 是 说 ， LOWESS 的 校正 是 通过 添加 梯度 来 剔除 异常 值 影响 的 ， 而 鲁 
棒 局 部 加 权 回 归 的 校正 是 根据 趋势 来 预测 异常 值 ， 以 此 来 剔除 异常 值 的 
影响 的 。 

LOWESS 相当 于 反复 进行 线性 回归 ， 但 实际 得 到 的 并 非 直线 〈 ) 























lowess(cars) 

















行 平 滑 处 理 的 对 象 范 


























平滑 处 理 的 对 象 范围 会 根据 参数 
了 的 值 发 生 改 变 ， 当 f = 0.2 时 ， 异 
常 值 的 影响 更 大 





























speed (x) 





BE 下 移动 x 时 权重 的 变化 示例 
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罚 L2 正则 化 和 L1 正则 化 


在 最 小 二 乘法 的 联 立方 程 组 中 添加 惩罚 项 也 是 一 种 添加 权重 的 方法 。 

根据 添加 惩罚 项 的 方式 ， 我 们 可 以 将 惩罚 项 分 为 站 2 正则 化 、L1 正则 
化 ， 以 及 线性 融合 了 Ll 正则 化 和 L2 re ( elastic net ) 等 ， 
作为 惩罚 添加 的 项 称 为 惩罚 项 或 正则 化 项 ( 回 四 区 衣 )。 


























。L2 正则 化 
E=(Y-o XI (Yo X)+Alol 
lol = 

@ =(X'X+AD "XY 

。L1 正则 化 
E=(Y-w X) (Y-w X)+A|w| 


loF2lol 
i 


。 Elastic Net 


已 = 了 -OAX)TT-oX)+22 C0 |+( -a)0) 





L2 正则 化 的 公式 、L1 正则 化 的 公式 和 弹性 网 络 的 公式 








L2 正则 化 也 称 为 岭 回 归 ， 它 在 最 小 二 乘法 的 因 变 量 残 差 平 方 和 中 添 
加 权重 系数 w; 的 平方 和 作 为 惩罚 。 这 个 惩罚 项 又 叫 作 L2 范 数 。4 称 为 正 
则 化 系数 ， 我 们 一 般 会 使 用 交叉 验证 ( cross validation ) 来 确定 最 佳 的 4 的 
值 ， 取 值 越 大 惩罚 力度 越 强 。L2 正则 化 会 为 正规 方程 的 XX 项 添加 一 个 
47 (了 为 单位 矩阵 )。 

L1 正则 化 又 称 为 Lasso 回归 〈Least absolute shrinkage selection operator， 
最 小 绝对 值 收缩 和 选择 算 子 )， 它 在 因 变量 中 添加 权重 系数 的 绝对 值 之 和 
作为 惩罚 。 这 个 惩罚 项 又 叫 作 L1 范 数 。 

简单 来 说 ， 惩 罚 项 在 > oj g=1 时 为 LI 范 数 ，g=2 时 为 L2 范 数 。 

















使 用 Ll 正则 化 时 ， 部 分 权重 系数 o 为 0， 权重 系数 容易 稀 琉 化 。 在 构建 
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模型 时 ， 该 特性 可 用 于 特征 的 选择 。 除 了 信和 号 处 理 和 模式 识别 ， 这 个 特性 
还 可 以 用 于 解决 多 重 共 线 性 问题 。 


L2 正则 化 可 以 通过 数值 分 析 来 求解 ， 而 LI 正则 化 不 能 。LI 正则 化 
需要 使 用 凸 优化 预测 算法 求解 )- 





数据 生成 函数 


y=0.001(x + x +x) 
上 述 函 数 使 用 的 20 个 数据 包含 N(0, 0.1)N(0, 0.1) 
之 间 的 随机 数 。 结 果 如 下 所 示 。 














— Lasso 
-一 Ridge 














— ElasticNet 











回归 模型 中 L1 正则 化 的 效果 和 L2 正则 化 的 效果 




















摘自 《回归 模型 中 工 1 正则 化 的 效果 和 工 2 正则 化 的 效果 》 一 文中 的 实验 图 








中 原文 名 为 『「 回 肾 所 了 儿 生 失 计 加 L1 正则 化 上 L2 正则 化 0D 劾 果 上 译 者 注 
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相似 度 的 计算 





下 面 对 相 似 度 的 计算 进行 说 明 。 











要 点 、 @ 进行 回归 分 析 时 确认 相关 性 ( 相关 系数 ) = 确认 相似 性 
名 相似 度 的 度量 指标 ， 余弦 相似 度 ( = 相关 系数 )、 互 相关 函数 、 
自 相 关 函 数 、Jaccard 系数 、 编 辑 距离 

















晶 相似 度 的 种 类 和 计算 方法 








在 计算 机 自动 预测 答案 的 过 程 中 ， 有 一 个 重要 的 概念 ， 即 给 定 的 两 个 
变量 之 间 的 相似 度 ( 加 区 县 习 )， 相 似 度 包括 余弦 相似 度 、 相 关系 数 、 相 关 
函数 、 编 辑 距离 (edit distance ) 以 及 Jaccard 系数 。 下 面 将 逐一 对 它们 进 





相似 度 如 何 ? 





两 个 变量 之 间 的 相似 度 


车 余弦 相似 度 


余弦 相似 度 是 最 常用 的 相似 度 度 量 指标 之 一 ， 计 算 公 式 如 加 区 区 到 所 
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示 。 它 是 对 于 给 定 的 两 个 变量 x 和 y， 用 两 个 变量 之 间 夹 角 的 余弦 值 cos0 
表示 相似 度 的 方法 。 

该 相似 度 的 取 值 在 0 和 1 之 间 ， 越 接近 1 就 代表 两 个 变量 越 相似 。 如 
果 把 x 和 yy 看 成 两 个 向 量 ， 公式 右 边 的 分 子 就 是 两 个 向 量 的 内 积分 母 是 
两 个 向 量 的 长 度 。 











| 称 为 x 的 范 数 


< 2 了 > 





也 可 以 写成 cosO = 
上 xz | 


元 . 
x 


cosO = 


C+ + 加 十 … 十) 


1 Es 
i=l Fe 








coSO 








余弦 相似 度 的 计算 公式 





余弦 相似 度 被 广泛 应 用 于 计算 文章 的 相似 度 上 。 如 加 区 区 1 所 示 ， 计 
算 文章 中 词语 出 现 的 频率 ， 再 套用 余弦 相似 度 的 计算 公式 ， 即 可 计算 文章 
之 间 的 相似 度 。 








1.000 





0.2 1.000 





0.12 0.06 1.000 





0.31 0.26 0.14 1.000 





报道 a | 报道 b | 报道 c | 报道 d 























根据 余弦 相似 度 来 计算 文章 中 词语 的 出 现 频率 
把 报道 按照 与 报道 a 的 相似 度 由 高 到 低 的 顺序 
排列 ， 结 果 为 d> b > c， 按 照 与 报道 b 的 相似 
度 由 高 到 低 的 顺序 排列 ， 结 果 为 d>c 






































关于 词语 和 出 现 频 率 的 表 以 及 相似 度 的 计算 结果 

















。 有 7n 个 词语 列表 ， 列 表 由 需要 计算 相似 度 的 文章 1 和 文章 2 中 的 所 

有 词语 构成 

。x: 文章 1 中 词语 出 现 的 频率 ( i=1, 2, …,n ) 
H 


。): 文章 2 中 词语 出 现 的 频率 ( i=1, 2, …,n) 
































84 | 图 解 人 工 智能 
































1 前 面 的 内 容 可 知 ， 通 过 散 点 图 ， 我 们 可 以 把 两 个 变量 的 值 用 一 个 数 
据 集 表示 。 这 里 以 坐标 轴 的 交点 为 原点 ， 将 变量 按照 坐标 值 绘制 到 向 量 空 
间 中 ( 世 E 业 有) 






































散 点 图 中 两 个 变量 值 的 数据 集 以 及 各 点 向 量 











在 余弦 相似 度 的 计算 公式 中 ， 设 xx 和 ?> 的 原点 分 别 为 x。 和 y。， 即 可 把 
公式 变换 为 加 区 吕 鸡 的 形式 。 由 于 坐标 诛 点 可 以 移动 ， 所 以 我 们 也 可 使 用 
x 和 ?的 平均 值 作为 原点 。 这 个 公式 与 笔者 接 下 来 要 介绍 的 相关 系数 的 计 
算 公式 密切 相关 。 























COSO 





_ (Ga — Xo — yo0) + (% Xo)(y, yo0) + (06 X0)(D53 Wt = =) 


n 


3 —X0) 人 -yy 








YG, -D0 - 习 


| 











余弦 相似 度 计算 公式 的 变形 公式 


缠 相关 系数 


根据 日 本 工业 标准 (Japanese Industrial Standards，JIS )， 相 关 性 是 指 
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两 个 随机 变量 的 分 布 规律 之 间 的 关系 ， 在 多 数 情况 下 是 指 线 性 相关 的 程 
度 。 如 果 两 个 变量 是 按 一 定 概率 取 值 的 ， 那 它们 就 是 随机 变量 ， 而 非 随机 
变量 中 的 相关 系数 也 是 这 个 含义 。 我 们 常 说 的 相关 系数 多 指 皮尔 逊 相关 系 
数 〈 也 称 皮尔 逊 积 矩 相关 系数 ) ( )- 





PG -D0,-D) 


| 











皮尔 逊 相关 系数 的 计算 公式 


相关 系数 的 值 在 1 和 -1 之 间 ， 正 值 表示 正 相 关 ， 负 值 表 示 负 相关 。 
相关 系数 越 接近 1 或 者 -1， 相 关 程 度 就 越 高 。 

如 果 两 个 变量 之 间 的 相关 系数 的 绝对 值 在 0.7 以 上 ， 就 可 以 认为 它们 
之 间 高 度 相关 。 

需要 注意 的 是 ， 相 关系 数 的 绝对 值 接近 1， 只 能 说 明 进 行 线性 回归 
时 ， 散 点 图 中 的 数据 点 分 布 偏差 小 ， 分 布 趋势 清晰 。 相 反 ， 也 存在 数据 点 
分 布 偏差 小 但 相关 系数 接近 0 的 情况 。 另 外 ， 如 果 没 有 任何 偏差 ， 即 标准 
差 为 0 时 ， 则 无 法 计算 相关 系数 (图 世 E 世 )- 






































此 时 无 法 计算 相关 系数 

















点 的 分 布 和 相关 系数 的 关系 


除 此 之 外 ， 相 关系 数 还 包括 斯 皮尔 曼 秩 相 关系 数 和 肯 德 尔 秩 相关 系 





80 到 解 人 工 智能 

















数 。 秩 相关 系数 在 求解 时 只 使 用 排序 信息 。 


口 斯 皮尔 曼 秩 相关 系数 

我 们 可 以 把 斯 皮尔 曼 秩 相关 系数 当成 皮尔 逊 相关 系数 的 一 个 特例 来 求 
解 。 如 果 存 在 同 秩 〈 并 列 排序 )， 则 需要 进行 校正 ;如果 同 秩 较 少 ， 即 使 
不 校正 也 能 求 出 相近 的 值 ( 医 E 要 天 )。 








。 斯 皮尔 曼 秩 相 关系 数 
6》 Dp? 


i=1 





六 三 1 


nn 
D 表示 排序 之 间 的 差 值 


T+D, -YD? 
je 


人， 2 
mn- Yet) 
= 避 

12 

; 

n —n— DG -1t) 
8 
12 
nx、 表示 同 秩 的 数 ，t#、 沁 表示 划 


到 

















斯 皮尔 曼 秩 相关 系数 的 公式 
摘 息 斯 皮尔 曼 秩 相 关系 数 》 





口 肯 德 尔 秩 相关 系数 

在 计算 肯 德 尔 秩 相 关系 数 时 ， 会 使 用 同 序 对 的 数据 个 数 K 和 蜡 序 对 
的 数据 个 数 工 。 如 果 所 有 排序 相同 ， 从 半 个 数据 中 选择 2 个 的 总 对 数 就 为 
开 ， 这 与 公式 z 的 分 母 相 等 。 

肯 德 尔 秩 相 关系 数 的 值 在 1 和 -1 之 间 ， 相 关系 数 越 接近 1 或 -1， 
相关 程度 就 越 高 。 相 关系 数 为 0 表示 没有 相关 关系 〈 图 杞 县 玉 )。 











中 原文 名 为 | 又 已 了 他 由 顺 位 相关 你 数 译 者 注 
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ef 下 Xx 的 大 小 关系 与 y、y 的 大 小 关系 -至 


2: 
oh xz 的 大 小 关系 与 、y 的 大 小 关系 不 一 | 





肯 德 尔 秩 相关 系数 的 计算 公式 


中 EE 


相关 系数 可 以 用 来 判断 两 组 数值 的 相似 性 。 我 们 不 仅 能 计算 数值 之 间 
的 相似 性 ， 也 能 计算 函数 之 间 的 相似 性 。 函 数 通 常 指 时 间 函 数 ， 也 就 是 根 
据 时 间 序 列 数据 得 到 的 函数 医 开 村 妈 )。 常 用 的 相关 函数 包括 互相 关 函 数 
和 上 自 相关 函数 。 
































和 形 表示 两 个 变量 的 相似 度 

















对 时 间 序 列 数据 使 用 互相 关 函 数 和 自 相 关 函 数 的 示例 





在 互相 关 函 数 中 ,使 用 互相 关系 数 ( 相当 于 前 述 相关 系数 ) 表示 两 个 

时 间 序 列 之 间 的 数据 的 变化 ( 相关 程度 )。 
当 互 相关 函数 中 的 两 个 函数 相同 时 ， 它 就 是 自 相 关 函 数 。 使 用 自 相 关 
函数 计算 相关 系数 ， 可 以 检验 函数 的 周期 性 。 自 相关 函数 和 卷 积 处 理 ( 参 
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照 9.4 节 ) 密切 相关 ， 在 傅 里 时 变换 (Fourier Transform，EFT ) (参照 10.2 
节 ) 等 信号 处 理 中 也 经 常 使 用 ， 我们 在 这 里 就 不 深入 探讨 了 。 





蕊 编辑 距离 

我 们 可 以 用 “相近 ”或 “ 相 远 ”表示 两 个 事物 之 间 的 相似 程度 ， 因 此 
也 可 以 说 相似 度 与 距离 的 概念 相近 。 与 相似 度 度量 相反 ， 距 离 越 小 说 明 相 
似 度 越 高 。 名 称 中 含有 距离 字样 的 相似 度 度量 包括 编辑 距离 。 编 辑 距 离 是 
两 个 字符 串 之 间 的 相似 度 ， 又 称 Levenshtein 距离 。 








本 编辑 距离 

编辑 距离 会 分 别 对 字符 串 的 蔡 换 、 插 入 和 删除 操作 设置 惩罚 项 ， 把 惩 
罚 项 的 合计 值 作为 代价 值 来 定义 相似 度 。 在 比较 两 个 字符 串 时 ， 如 果 字 符 
数 相同 ， 除 了 编辑 距离 ， 我 们 还 可 以 使 用 汉 明 距离 。 












































口 汉 明 距离 

汉 明 距离 也 叫 信 号 距离 ， 表 示 两 个 长 度 相 同 的 字符 串 在 对 应 的 位 置 上 
有 多 少 个 不 同 的 字符 ， 可 用 于 检测 错误 。 对 两 个 字符 串 进 行 异 或 运算 并 统 
计 结果 为 1 的 个 数 ， 该 个 数 就 是 汉 明 距离 (图 世 有 习 )。 

















000110101011 MONDAYTESDAY 


} | 
0001 国 1 四 1011 MON 三 Y 珊 :WAY 


汉 明 距离 : 3 编辑 距离 : 8 
(替换 3 个 字符 ) ( 替换 3 个 字符 ， 删 除 3 个 字符 ， 插 入 2 个 字符 ) 





汉 明 距离 和 编辑 距离 








编辑 距离 可 用 于 常见 的 字符 串 比 较 。 例 如 ， 将 输入 的 英语 单词 和 字典 
里 的 单词 进行 对 比 ， 找 出 相近 的 单词 。 既 可 以 轻松 地 检查 出 拼写 错误 的 单 
词 ， 又 能 提示 候选 的 正确 单词 。 

一 些 英语 单词 检索 系统 对 编辑 距离 进行 了 改进 ,不仅 能 对 比 字符 ， 还 
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能 结合 发 音 来 提示 候选 单词 ( 回 区 县 蚤 )。 


MONDAYTUESDAY 


+ 
MONKEYIWEsDAY 
M4 


MONKEYSDAY 
M4 插入 2 个 字符 

MONKEY 琴 SDAY 
+ 


替换 2 个 字符 


删除 3 个 字符 a 
编辑 距离 ; 8 


(替换 3 个 字符 ， 删 除 3 个 字符 ， 
插入 2 个 字符 ) 











替换 1 个 字符 
MONKEYHAS 现 AY 





编辑 距离 的 计算 方法 


除 此 之 外 ,我们 还 可 以 使 用 编辑 距离 来 计算 组 成 基因 的 碱 基 序 列 和 氮 
基 酸 序列 的 同 源 性 。 





蕊 马 氏 距 离 

马 氏 距离 (mahalanobis distance ) 也 是 用 距离 命名 的 相似 度 度量 。 在 
用 二 维 散 点 图 表示 两 个 变量 之 间 的 相关 性 时 ， 我 们 用 欧 几 里 得 距离 (也 
称 欧 氏 距离 ) 表示 两 个 坐标 点 之 间 的 直线 距离 。 欧 几 里 得 距离 可 以 通过 
我 们 非常 熟悉 的 毕 达 哥 拉 斯 定理 (又 称 毕 氏 定 理 或 勾 股 定理 ) 计算 出 来 
(BES ). 





























有 得 距离 





欧 几 里 得 距离 的 公式 





马 氏 距离 是 在 欧 几 里 得 距离 的 基础 上 增加 数据 点 来 进行 计算 的 。 在 用 
距离 表示 散 点 图 中 3 个 以 上 变量 之 间 的 相关 性 时 ,使 用 的 就 是 马 氏 距离 
( )。 
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。 马 氏 距 离 的 计算 公式 





d(x y)= Vy) cov(x, DC 人 


两 个 向 量 x=ony rz Xx， …,%) 和 y=(y;, y,, y，…,)，Cov(x, J) 为 x 和 yy 的 协 方 差 矩 




















F (方差 - 协 方差 矩阵 )。 如 果 协 方差 矩阵 的 对 角 线 之 外 的 元 素 尼 为 0， 即 为 对 





















































阵 ， 利 用 x 的 标准 偏差 v， 马 氏 距 离 的 计算 公式 可 以 写成 如 下 
氏 距 离 就 等 于 欧 几 里 得 距离 。 





























5 式 。 如 果 0=1 























nn 和 
i 
re pa 区 
i=1 On 





马 氏 距离 的 计算 方法 


























相关 性 。 马 氏 距 离 相当 于 根据 总 体 标准 偏差 进行 校正 后 的 欧 几 里 得 距离 
(区 桔 四 )。 这 种 方法 可 以 用 来 检测 某 个 数据 点 是 否 会 成 为 总 体 中 的 异 
常 值 。 


马 氏 距离 用 来 计算 一 个 样本 点 与 总 体 的 距离 ， 它 考虑 了 数据 之 间 的 


= 


协 方差 矩阵 为 对 角 和 矩阵 
= 纵横 比 改变 


协 方差 矩阵 为 非 对 角 和 矩阵 
= 轴 上 添加 旋转 








欧 几 里 得 距离 上 的 等 距 位 




















氏 距 离 上 的 等 距 位 











欧 几 里 得 距离 和 马 氏 距离 的 比较 图 


品 Jaccard 系数 

Jaccard 系数 通过 计算 两 个 集合 交集 的 元 素 个 数 来 比较 两 个 样本 集 之 
间 的 相似 性 。 求 Jaccard 系数 最 简单 的 方法 是 绘制 维 恩 图 ， 因 为 这 时 我 们 
无 须 考 虑 集合 中 的 元 素 是 数值 还 是 字符 串 。 该 方法 非常 方便 。 
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Jaccard 系数 可 通过 两 个 集合 交集 的 元 素 个 数 除 以 并 集 的 元 素 个 数 得 
+ (BE )， 


Jaccard 系 数 的 计算 公式 


| 集合 4 门 集合 B | 


” “| 集合 4U 集 合 3| 





ZE 下 维 因 图 和 Jaccard 系数 的 计算 公式 





二 放量 权重 和 优化 程序 


草 

















使 用 神经 网 络 或 贝 叶 斯 网 络 进行 分 析 时 ， 我 们 需要 了 人 解 网 
络 图 ( network graph ) 的 概念 。 在 本 章 的 前 半 部 分 ， 笔 者 
将 对 网 络 图 的 基础 知识 及 主要 的 分 析 方法 进行 说 明 ， 其 中 
重点 介绍 动态 规划 ( Dynamic Programming，DP ) 算法 。 
另外 ， 笔 者 也 会 对 遗传 算法 进行 说 明 。 在 优化 程序 方面 ， 
遗传 算法 与 使 用 网 络 图 的 动态 规划 算法 一 样 常用 。 在 本 章 
的 后 半 部 分 ， 笔 者 将 对 使 用 了 网 络 图 的 数值 最 优化 程序 的 
基础 一 一 神经 网 络 进行 说 明 。 






























































| 








由 
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下 面 来 介绍 图 论 的 基础 知识 。 


























要 点 、@ 图 的 概要 
名 图 论 的 基础 知识 
| 
说 到 图 ， 我 们 通常 会 联想 到 根据 表格 数据 生成 的 柱状 图 或 饼 图 。 但 是 
笔者 要 介绍 的 是 把 点 和 线 连接 在 一 起 的 图 。 这 些 点 称 为 项 点 (vertex ) 或 


节点 (node )， 这 些 线 称 为 边 (edge )。 
如 果 图 中 任意 两 个 顶点 都 是 相连 的 ， 该 图 则 称 为 连通 图 ( connected 
graph )， 否 则 称 为 非 连通 图 ( disconnected graph )。 不 与 其 他 任何 顶点 相连 








孤立 顶点 











» 
A LV 


对 图 来 说 ,重要 的 是 两 个 顶点 是 否 相 连 ， 顶 点 所 在 的 位 置 并 不 重要 。 
对 于 视觉 上 不 同 的 两 个 图 ， 有 时 通过 移动 硕 点 就 能 将 二 者 转换 成 视觉 上 相 
同 的 图 。 在 这 种 情况 下 ， 我 们 就 可 以 说 这 两 个 图 同 构 ( 国 E 寺 | )。 


























图 的 构成 要 素 
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同 构图 





还 有 像 回 本 区 那样 的 复杂 图 形 。 如 果 两 个 顶点 连接 了 两 个 以 上 的 边 ， 
这 样 的 边 就 称 为 平行 边 ; 如 果 不 同 的 边 交 于 同一 个 项 点， 这 样 的 边 就 称 为 
自 回路 (或 环 )。 



































复杂 的 图 


下 和 alSbikalals| 


若 图 中 连接 两 个 顶点 的 每 条 边 都 是 有 方向 的 ， 则 该 图 称 为 有 向 图 
( directed graph )。 如 果 一 个 有 向 图 无 法 从 某 个 顶点 出 发 经 过 若干 条 边 再 回 
到 该 点 ， 则 这 个 图 称 为 有 问 无 环 图 ( Directed Acyclic Graph，DAG )。 若 图 
中 的 每 条 边 都 没有 方向 ， 则 该 图 称 为 无 向 图 (undirected graph )。 
除了 方向 ， 有 些 图 的 每 条 边 还 被 赋予 了 权重 ， 这 样 的 图 称 为 加 权 图 。 
权重 既 可 以 用 数值 表示 ， 也 可 以 用 线段 的 粗细 表示 。 除 边 之 外 ， 顶 点 也 可 
以 被 赋予 权重 。 根 据 权 重 的 赋值 位 置 ， 加 权 图 可 分 为 边 加 权 图 和 顶点 加 权 
图 ( 和 




















[ 吕 | 
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( 边 ) 加 权 医 














有 向 图 和 加 权 图 














加 权 图 也 称 为 网 络 ， 其 中 包括 神经 网 络 和 贝 叶 斯 网 络 。 笔 者 在 前 面 介 
绍 过 的 状态 转换 图 也 是 一 种 网 络 图 。 


沁 图 的 矩阵 表示 法 


对 于 用 顶点 和 边 表示 的 图 ， 其 形状 可 以 转换 为 其 他 形式 ， 例 如 我 们 可 








以 用 和 矩阵 来 表示 图 。 















































用 矩阵 表示 图 的 方法 也 有 很 多 种 ， 邻 接 矩 阵 表 示 顶 点 








之 间 的 相 邻 关系 ， 关 联 窍 阵 表 示 顶 点 与 边 之 间 的 关系 。 
对 于 一 个 有 nn 个 项 点 和 m 条 边 的 图 ， 若 采用 邻接 和 矩阵 表示 ， 则 算 阵 














大 小 为 nxn， 若 采 











用 关联 和 矩阵 表示 ， 则 和 矩阵 大 小 为 nxm。 如 果 顶 点 之 间 





相连 或 项 点 与 边 之 间 相 连 ， 和 矩阵 中 相应 位 置 的 元 素 则 为 1， 没 有 相连 则 为 


0。 对 于 边 加 权 图 ， 





邻接 矩阵 中 相应 位 置 的 元 素 就 是 连接 两 项 点 之 间 的 边 


上 的 权重 ， 而 不 是 0 和 1 ( 茵 EB ). 

















图 的 矩阵 表示 法 
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通过 用 和 矩阵 表示 图 ， 我 们 可 以 把 用 图 表示 的 变量 之 间 的 相关 性 转化 为 
表格 形式 ,或 者 把 用 热 图 表示 的 色彩 变化 丰富 的 表格 数据 转化 为 加 权 图 等 
形式 。 这 个 方法 非常 方便 ， 我 们 也 可 以 用 它 进 行 矩 阵 的 运算 。 我 们 把 基于 
加 权 图 的 数据 分 析 方 法 统称 为 网 络 分 析 。 

村 树 状 图 
有 一 种 图 的 结构 是 从 某 个 顶点 出 发 后 就 不 再 回 到 该 点 ， 例 如 有 向 无 环 


图 。 如 果 从 任意 顶点 出 发 后 都 不 再 回 到 该 顶点 ， 我 们 就 把 这 种 结构 称 为 树 
形 结 构 ， 将 起 始 顶 点 称 为 根 节点 (root ) ( 医 E )。 















































根 节 点 





树 状 图 














根据 使 用 目的 和 构成 ， 树 状 图 可 以 分 为 决策 树 和 搜索 树 。 决 策 树 可 以 
作为 条 件 分 支 的 一 组 分 类 规则 在 基于 统计 模型 的 预测 中 使 用 ， 而 搜索 树 可 
以 作为 状态 分 割 方法 使 用 。 
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图 谐 搜索 和 最 优化 





下 面 来 介绍 图 谱 搜 索 和 最 优化 。 

















要 点 、 6 树 形 结构 、 二 又 搜索 树 
色 广度 优先 搜索 、 深 度 优先 搜索 、A 算法 
名 动态 规划 算法 

















秘 搜索 树 的 构建 场景 


我 们 可 以 在 各 种 情况 下 使 用 树 状 图 。 树 状 图 的 特点 是 方便 我 们 绘制 出 
从 一 个 顶点 出 发 向 其 他 多 个 项 点 延伸 的 样 态 ， 比 如 系统 发 生 树 那样 的 
状 。 它 常用 于 寻找 从 起 点 到 终点 或 多 个 终点 中 的 某 一 个 终点 的 路 径 。 

例如 ， 在 解决 以 象棋 和 黑白 棋 等 扩展 型 游戏 为 代表 的 二 人 有 限 零 和 对 
策 ， 以 及 迷宫 和 换 乘 提示 等 路 线 搜索 问题 时 ， 可 以 用 搜索 树 的 顶点 表示 着 
法 和 位 置 ， 分 割 出 分 支 状 态 (图 辐 鄙 )。 

















NSS 






































搜索 树 的 构建 示例 














搜索 树 中 的 顶点 通常 称 为 节点 。 可 以 在 节点 中 赋值 收益 和 成 本 等 评估 
值 或 状态 。 
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在 某 些 分 割 状 态 下 ， 根 据 搜索 结果 选择 下 一 条 边 ， 也 就 是 选择 下 一 个 
节点 时 ， 需 要 根据 游戏 目标 来 计算 评估 值 。 

另外 ,在 迷宫 和 换 乘 提示 等 使 用 情景 下 ， 在 搜索 路 线 的 过 程 中 可 能 会 
发 生 各 种 事件 。 例 如 需要 通过 指定 的 地 点 ， 或 者 换 乘 时 会 产生 相应 的 时 间 
成 本 和 交通 费 成 本 等 ， 这 些 都 要 纳入 计算 范围 。 考 虑 到 这 些 状态 变化 会 发 


























生 在 时 间 轴 上 ， 我们 可 以 把 路 线 搜索 问题 看 成 一 个 多 阶段 的 决策 问题 。 

根据 在 当前 时 刻 1 的 状态 下 采取 某 种 行动 后 所 获得 的 收益 或 付出 的 成 
本 来 决定 下 一 时 刻 t+1 的 状态 。 反 复 执行 该 操作 ， 使 最 终 时 刻 7 的 收益 最 
大 或 成 本 最 小 。 这 类 规划 问题 称 为 多 阶段 决策 问题 ( 回国 国 )。 




















多 阶段 决策 问题 的 图 例 








数据 结构 中 也 有 很 多 树 形 结构 。 例 如 ， 为 了 缩短 数据 库 系统 中 目标 数 
据 的 搜索 时 间 ， 可 以 构建 树 形 结构 的 索引 。 把 排序 数据 分 成 两 部 分 保存 ， 
再 把 每 部 分 分 成 两 部 分 、 四 部 分 …… 依 次 类 推 ， 从 而 提高 搜索 数据 的 效 
率 。 我 们 把 这 种 树 形 结构 称 为 二 又 搜索 树 ， 把 使 用 这 种 方法 搜索 数据 的 行 
为 称 为 二 分 查找 。 

在 实际 的 数据 库 系统 中 经 常 使 用 的 B 树 是 通过 一 种 更 灵活 的 方法 构 
建 的 树 形 结构 。 另 外 ， 还 有 一 个 称 为 本 体 结构 (参照 12.3 节 ) 的 树 形 结 
构 数 据 ， 它 在 数据 中 添加 了 表示 数据 关系 的 元 素 。 这 种 树 形 结构 数据 在 构 
建 和 引用 语义 网 络 时 经 常会 用 到 。 






































| 



























































泌 搜索 树 的 遍历 方法 








在 一 个 树 形 结构 的 搜索 树 或 有 多 个 根 目 录 和 路 径 的 迷 宣 路 径 搜 索 中 ， 
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搜索 的 目的 就 是 找到 从 根 节 点 到 目标 节点 的 最 短路 径 。 
搜索 树 有 两 种 不 同 的 搜索 方法 一 一 深度 优先 搜索 和 广度 优先 搜索 
( )。 顾名思义 ， 两 种 搜索 方法 的 步骤 有 所 不 同 。 








深度 优先 搜索 和 广度 优先 搜索 





深度 优先 搜索 是 从 一 个 节点 出 发 后 ， 沿 着 一 条 路 径 走 到 不 能 再 深入 为 
止 ， 然 后 回溯 到 上 一 个 节点 ， 沿 着 男 一 条 路 径 进行 同样 的 搜索 ， 不 断 反复 
直到 无 路 可 走 。 

广度 优先 搜索 是 从 一 个 节点 出 发 后 ， 依 次 遍历 当前 节点 的 全 部 相 邻 节 
点 ， 再 继续 遍历 当前 节点 第 一 个 相 邻 节点 的 全 部 相 邻 节点 ， 依 次 递归 。 

如 果 事 先知 道 可 以 到 达 目 标 终点 的 路 径 ， 那 么 使 用 哪 种 方法 能 够 尽早 
到 达 是 不 言 而 喻 的 。 但 是 ， 事 先 不 知道 路 径 的 情况 比较 多 ， 这 时 两 种 搜索 
方法 就 各 有 利弊 了 。 我 们 要 根据 节点 的 状态 评 佑 值 〈 例 如 输赢 标志 、 绝 
路 、 终 点 、 得 分 值 等 ) 和 评价 函数 来 决定 目标 节点 。 























口 搜索 树 在 搜索 时 所 需 的 列表 

在 使 用 搜索 树 进行 搜索 时 ， 首 先 要 定义 openlist 和 closelist 这 两 个 节 
点 列表 。openlist 用 来 保存 待考 察 的 节点 及 其 相 邻 节点 ，closelist 用 来 保存 
已 经 遍历 完 的 节点 。 当 目标 节点 添加 到 closelist 中 时 ， 停 止 搜索 。 

深度 优先 搜索 把 待考 察 的 节点 添加 到 openlist 的 前 端 ， 从 前 端 节 点 开 
始 按照 顺序 搜索 。 

最 后 进入 列表 的 节点 会 最 先 被 移 除 ， 这 种 方式 称 为 LIFO (Last In， 
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First Out )， 即 后 进 先 出 。 

广度 优先 搜索 把 待考 察 的 顶点 添加 到 openlist 的 底 端 ， 最 先进 入 列表 
的 节点 会 最 先 被 移 除 ， 这 种 方式 称 为 FEIFO (First In, First Out )， 即 先进 先 
出 (ES )- 














push pop 
©@\ 


@ 


























LIFO FIF0 有 些 编程 语言 中 
(小 球 所 在 的 (小 球 所 在 的 。 ”Push ( enqueue) 和 
简称 为 楼 ) 简称 为 队列 ) Shift ( dequeue ) 表示 








LIFO 和 FIFO 


志高 效 的 搜索 方法 








前 面 介绍 的 深度 优先 搜索 和 广度 优先 搜索 只 是 按 顺序 搜索 节点 。 为 了 











缩短 处 理 时 间 ， 我 们 必须 采用 更 高 效 的 搜索 方法 。 

为 了 缩短 处 理 时 间 ， 我 们 需要 在 搜索 过 程 中 引入 成 本 的 概念 。 我 们 来 
看 一 下 路 径 中 包含 成 本 的 例子 。 从 大 阪 到 东京 ， 可 以 选择 经 由 东海 道 的 路 
线 和 经 由 北 陆地 区 的 路 线 ， 这 两 种 路 线 在 时 间 和 费用 方面 存在 差异 。 利 用 
这 些 先 验 知识 和 经 验 可 以 缩短 处 理 时 间 。 

成 本 包括 以 下 几 种 类 型 。 

。 从 起 点 到 点 s 之 间 的 最 优 路 线 总 成 本 gGs) 

。 从 点 s 到 目标 点 之 间 的 最 优 路 线 总 成 本 hs) 

。 从 起 点 经 过 点 s 到 目标 点 之 间 的 最 优 路 线 总 成 本 js) ( =g(s)+h(s) ) 






































有 两 种 搜索 方法 。 一 种 是 最 优 搜索 ， 其 目标 是 使 预计 总 成 本 &(s) 降 到 
最 低 。 具 体 来 说 就 是 对 openlist 中 的 节点 进行 排序 后 有 选择 性 地 进行 搜索 。 
另 一 种 最 佳 优先 搜索 ， 其 目标 是 使 预计 成 本 As) 降 到 最 低 。 这 两 种 方法 都 
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是 通过 调整 轿 区 SU 中 简 里 的 小 球 的 排序 来 进行 搜索 的 。 

但 是 这 两 种 搜索 方法 存在 一 定 的 局 限 性 。 最 优 搜 索 会 导致 搜索 次 数 增 
多 ,而 最 佳 优 先 搜索 可 能 搜索 到 错误 的 路 径 上 。 所 以 ,我 们 需要 使 用 A 
算法 。A' 算法 利用 &(s) 和 有 (s) 使 预计 值 f(s) 降 到 最 低 。A' 算法 还 有 一 个 
特点 ， 那 就 是 当 点 s 的 相 邻 节点 s' 的 预计 成 本 f(s) 已 经 包含 在 closelist 中 
时 ， 如 果 了 (s) 更 小 ， 那 么 可 以 把 s' 从 closelist 移 回 openlist 中 。 

















口 路 径 成 本 

在 路 线 搜索 问题 中 ， 我 们 很 容易 理解 路 径 成 本 的 概念 ， 但 是 在 有 多 名 玩 
家 的 游戏 中 ， 路 径 成 本 又 是 什么 含义 呢 ? 这 里 我 们 来 看 一 下 只 有 两 名 玩家 
的 情况 。 在 前 面 的 例子 中 我 们 提 到 的 黑白 横 和 象棋 等 游戏 也 称 为 二 人 有 限 
零 和 对 策 ， 是 一 种 零 和 游戏 。 游 戏 过 程 中 的 搜索 树 称 为 博弈 树 ， 节 点 就 是 
自己 和 对 手 的 着 法 ， 如 果 双 方 都 不 犯错 ， 落 子 完 美 ， 游 戏 最 后 将 会 是 平局 。 








口 用 于 制定 策略 的 方法 

博弈 树 末 梢 存储 的 是 当前 的 状态 ， 即 对 自己 是 否 有 利 的 得 分 信息 。 在 
制定 策略 时 ， 如 果 轮 到 自己 落 子 ， 就 要 选择 使 局 面 分 数 最 高 ( 对 自己 有 利 
的 程度 最 大 ) 的 着 法 ， 如 果 轮 到 对 手 落 子 ， 他 一 定 会 选择 使 局 面 分 数 最 低 
《对 自己 不 利 的 程度 最 大 ) 的 着 法 。 极 大 极 小 (mini-max ) 算法 和 a-p 剪 
枝 算 法 都 是 按照 这 种 策略 尽 可 能 减少 待 搜索 的 顶点 数 的 。 

在 极 大 极 小 算法 中 ， 如 果 自 己 先 落 子 ， 轮 到 自己 落 子 时 就 要 选择 使 局 
面 分 数 最 高 的 着 法 ， 轮 到 对 手 落 子 时 就 要 选择 使 局 面 分 数 最 低 的 着 法 。 结 
果 如 图 国 量 骨 所 示 ， 红 色 的 边 是 最 终 被 选择 的 路 径 。 接 下 来 进行 优化 ， 截 
断 一 些 路 径 以 缩短 搜索 时 间 。 

a-B 剪 校 算 法 通过 p 剪 校 和 a 剪 校 来 剪 掉 分 支 。 在 从 左 疝 右 搜索 节点 
时 ,pp 剪 校 会 在 选择 最 大 值 的 过 程 中 ， 在 某 个 节点 的 值 小 于 当前 值 时 ， 把 
这 个 节点 剪 去 ( 即 在 后 落 子 的 局 面 中 剪 掉 后 续 对 先 落 子 行动 的 评价 ) a 
剪 枝 会 在 选择 最 小 值 的 过 程 中 ， 在 某 个 节点 的 值 大 于 当前 值 时 ， 把 以 这 个 
节点 为 根 的 子 节点 全 部 剪 去 ( 即 在 先 落 子 的 局 面 中 剪 掉 后 续 对 后 落 子 行动 
的 评价 )。a-6 剪 枝 算法 结合 了 广度 优先 搜索 和 深度 优先 搜索 。 
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极 大 极 小 算法 和 a -6 剪 枝 算 法 











在 围棋 和 将 棋 等 棋 类 游戏 中 需要 搜索 的 节点 数 非 常 多 ， 在 内 存 和 搜索 
时 间 方 面 无 论 如 何 也 无 法 满足 需求 。 为 了 解决 这 些 问 题 ， 我 们 可 以 采用 蒙 
特 卡 罗 树 搜索 ( Monte Carlo Tree Search，MCTS ) 对 节点 进行 排序 ， 然 后 
展开 搜索 ， 从 而 提高 搜索 效率 。 也 可 以 采用 二 元 决策 图 ( Binary Decision 
Diagram，BDD ) 和 零 压 缩 二 元 决策 图 (Zero-suppress BDD，ZDD ) 等 方 
法 对 搜索 树 进 行 压 缩 。 




















霹 动态 规划 算法 





在 进行 路 径 搜 索 时 可 能 需要 经 过 一 些 检查 点 或 者 产生 一 定 的 成 本 ， 这 
时 我 们 可 以 把 从 一 个 节点 到 另 一 个 节点 的 移动 看 作 时 间 轴 上 的 状态 变化 。 
这 种 从 一 种 状态 转换 到 另 一 种 状态 的 过 程 可 以 作为 多 阶段 决策 问题 处 理 。 

假设 多 阶段 决策 问题 的 路 径 评价 函数 为 J， 路 径 搜索 的 目标 就 是 使 目 
标 函 数 最 大 化 ( ), 


.CS $3, S$3, S$4, $s, SG, 3 


多 阶段 决策 问题 的 评价 函数 公式 


假设 时 刻 {=1,…, 7 的 状态 s, 及 种 取 值 ， 这 时 总 的 状态 数 为 NV。 假 
设 N=3， 步 数 7=10， 这 时 路 径 数 约 为 6 万 条 ,如 果 7=20， 路 径 数 将 达 
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到 35 亿 条 。 如 果 要 列举 出 所 有 的 路 径 进 行 评价 ， 根 据 计 算 量 公式 O(N") 
可 知 ， 计 算 量 呈 指数 增长 ， 这 是 不 现实 的 。 

如 果 我 们 可 以 将 评价 函数 了 用 两 个 成 对 的 状态 来 表示 ， 将 它 写 成 二 元 
函数 的 和 的 形式 ， 计 算 量 将 下 降 到 O(N?7)。 这 里 使 用 的 方法 称 为 动态 规划 
算法 ( 国 E ). 





Wy 
J(S1, 5 $3, Sa, Ss, Se» 7)= hs 5,) 
1=2 





用 两 个 成 对 的 状态 表示 多 阶段 决策 问题 的 评价 函数 


如 图 本 本 加 所 示 ， 在 选择 路 径 时 ， 不 同 的 路 线 ， 加 分 不 同 。 所 以 我 们 
需要 选择 路 径 中 得 分 最 高 的 路 线 。 从 起 点 移动 到 最 后 一 行 可 以 加 3 分 ， 
之 后 将 根据 剩余 步 数 加 上 相应 的 分 数 。 但 是 ， 如 果 到 达 终 点 时 选择 的 不 
是 最 上 面 一 行 的 路 径 ， 将 被 扣 5 分 。 动 态 规划 算法 会 从 {=1 到 1=7T 依 次 计 
算 F(s)。 





























QD 计算 F(s) 





动态 规划 算法 的 示例 图 


RCs) =max[ FCs, ) +h( ss $1)] 


已 的 计算 公式 
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回国 国 略 中 的 f(s,) 表示 的 是 到 达 该 节点 时 的 最 高 分 数 。s* 中 保存 的 三 
种 状态 也 都 存储 在 内 存 中 。 我 们 把 这 项 工作 称 为 内 存 化 。 

计算 最 后 一 步 7 的 (sy)， 最 大 值 用 表示， 然后 反 向 计算 用 于 得 
到 玉 (s 的 sy。 这 样 即 可 计算 出 最 优 路 径 (51, s,s3,…, sD) 和 最 高 分 数 三 。 

除了 计算 最 优 路 径 ， 动 态 规 划算 法 还 可 以 用 于 比较 文本 。 在 生物 信息 
学 领域 中 ， 动 态 规划 算法 用 于 比较 碱 基 序列 或 氨基 酸 序列 ， 并 计算 序列 同 
源 性 。 分 数 或 惩罚 可 以 参考 编辑 距离 ， 也 可 以 使 用 对 数 比值 比 的 矩阵 。 对 
数 比 值 比 是 根据 物种 间 相似 度 较 高 的 氨基 酸 序列 的 相对 频率 和 置换 概率 计 
算出 来 的 。 该 方法 虽然 能 够 加 快 比较 速度 ， 但 随 着 路 径 增多 ， 内 存 占用 量 
将 变 得 越 来 越 大 。 为 了 提高 处 理 效率 ， 我 们 需要 对 动态 图 进行 分 割 ， 使 用 
GPU 进行 大 规模 并 行 计算 ， 从 而 实现 高 效 的 计算 方法 。 
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下 面 来 介绍 遗传 算法 ( Genetic Algorithm ，GA )。 





要 点 、 @ 遗传 算法 
包 术语 说 明 及 流程 
名 实际 应 用 示例 

















区 遗传 算法 的 结构 
生物 在 生存 过 程 中 ， 通 过 交叉 (crossover )、 变 异 (mutation ) 以 及 淘 
汰 (selection ) 进化 出 环境 适应 能 力 更 强 的 后 代 。 我 们 把 基于 这 个 理论 的 


优化 方法 称 为 遗传 算法 。 
在 时 间 轴 上 进行 的 迭代 计算 经 过 不 断 进 化 ， 最 后 收敛 到 一 群 最 适应 























境 的 个 体 。 在 迭代 计算 过 程 中 采用 交 义 和 变异 等 进化 论 概念 的 计算 方 
为 进化 计算 ( evolutionary computation )。 
进化 计算 的 特点 如 下 所 示 。 


。 种群 性 
种 群 中 多 个 个 体 同 时 进行 搜索 ， 相 当 于 并 行 计算 。 

。 可 搜索 性 

不 需要 太 多 关于 搜索 空间 ( 使 用 的 自 变 量 和 因 变 量 的 值 域 ) 的 预备 

知识 。 

。 多 样 性 
由 于 种 群 中 的 个 体 具 有 多 样 性 ， 所 以 进化 计算 对 于 噪声 和 动态 变化 
等 具有 自 适 应 性 ， 能 够 得 出 鲁 棒 性 更 高 的 解 。 
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纪 术语 和 流程 





遗传 算法 中 有 一 些 特 有 的 术语 。 遗 传 算法 中 使 用 了 一 些 进化 论 和 遗传 
学 方面 的 术语 ， 这 是 因为 遗传 算法 是 从 生物 现象 遗传 规律 中 总 结 得 出 的 ， 
但 这 并 不 意味 着 生物 体内 真 的 会 发 生 这 种 现象 ( 国 EW )。 









































体 ， 是 染色 体 带 有 特征 的 实体 ， 一 些 具 有 候选 解 的 数据 
定数 目的 个 体 组 成 ， 个 体 的 数量 称 为 种 群 规模 
性 状 的 基本 遗传 单位 






























































芭 的 值 或 状态 














因 组 成 的 集合 
基因 座 > 上 所 占 的 位 


基因 型 
( genotype ) 


















































上 的 内 部 表现 ( 字符 串 或 医 























上 ij 
染色 体 决定 的 性 状 的 外 部 表现 
( phenotype ) 




















适应 度 境 的 适应 程度 ， 是 表现 型 的 分 值 
编码 阮 型 到 基因 型 的 转换 
解码 因 型 到 表现 型 的 转换 





























遗传 算法 的 术语 


遗传 算法 的 运算 流程 是 ， 首 先 初始 化 种 群 规模 为 N 的 初始 种 群 ， 然 
后 进行 个 体 评价 ， 计 算 各 个 个 体 的 适应 度 。 针 对 个 体 适 应 度 的 评价 结果 ， 
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判断 其 是 否 满 足 事 先 设 定 的 终止 条 件 。 如 果 满 足 终止 条 件 ， 即 算法 已 收 
伍 ， 则 处 理 结 束 。 如 果 不 满足 终止 条 件 ， 则 进行 迭代 处 理 。 

后 续 处 理 包 括 3 种 : 淘汰、 交叉 和 变异 。 各 个 个 体 要 实施 相应 的 
处 理 。 

处 理 过 程 中 得 以 保留 的 个 体 或 产生 的 新 个 体会 作为 子 代 个 体重 新 进行 
评价 。 之 后 就 是 整个 流程 的 近代 ( 医 EW )- 














初始 化 





产生 个 个 体 
计算 适应 度 ， 


确认 收敛 条 件 














NN 个 父 代 个 体 替换 
N 个 子 代 个 体 








保留 个 体 


淘汰 ( 选择 ) 
2 个 个 体 生成 2 个 子 代 个 体 


改变 1 个 个 体 的 基因 























遗传 算法 的 流程 











通过 计算 各 个 个 体 的 适应 度 来 判断 是 否 结束 世代 交替 的 处 理 。 以 下 几 
种 条 件 可 用 于 判断 是 否 结束 处 理 ， 也 就 是 判断 算法 是 否 已 收敛 。 


























。 种 群 内 的 最 大 适应 度 大 于 某 个 阐 f 
。 种 群 整体 的 平均 适应 度 大 于 某 个 阔 值 

。 一 定时 期 内 ， 种 群 内 适应 度 的 变化 小 于 某 个 阔 值 
。 和 迭代 次 数 达到 一 定数 量 ( 截断 ) 
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车 淘汰 ( 选择 ) 























在 遗传 算法 中 ， 选 择 具有 较 高 适应 度 的 个 体 直接 遗传 到 下 一 代 ， 
增加 下 一 We 
常用 的 淘汰 算法 如 加 国 量 图 所 示 ， 包 括 轮 盘 赌 选择 法 、 锦 标 赛 选择 法 
1 精英 选择 法 。 
在 轮 盘 赌 选择 法 中 ， 各 个 个 体 被 选中 的 概率 与 其 适应 度 高 低 成 正比 。 
即使 是 随机 选择 ， 扇 形 面 积 越 大 的 个 体 被 选中 的 概率 也 越 大 。 
锦标 赛 选择 法 是 每 次 从 种 群 中 随机 选择 一 定数 量 的 个 体 ， 然 后 让 其 中 
适应 度 最 高 的 个 体 进入 子 代 种 群 的 算法 。 重 复 该 操作 ， 直 到 种 群 规模 达到 
原来 的 种 群 规模 。 
精英 选择 法 是 把 种 群 中 适应 度 最 高 的 nG 个 个 体 直接 复制 到 下 一 代 种 
群 中 ， 再 对 剩余 的 2(L1-G) 个 个 体 进行 基因 操作 的 算法 。G 称 为 精英 率 ， 
1-G 是 繁殖 率 。 























pe 
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适应 度 


® Goooe 


Se 、 
oo Bge 


适应 度 高 的 个 体 更 容 随机 选择 m 个 个 选择 适应 度 高 的 nG 个 个 体 ， 将 
被 选中 为 锦标 赛 规模 ) 从 9 选择 它们 直接 复制 到 下 一 代 种 群 中 ， 
人 对 剩余 的 n(1 - G) 个 个 体 进行 交 

又 和 变异 等 基因 操作 





















































淘汰 ( 选择 ) 


交叉 是 一 种 基因 操作 的 方法 ， 指 替换 并 重组 两 个 父 代 个 体 的 部 分 基因 
结构 ， 从 而 生成 新 的 个 体 的 操作 ( 国 本 量 四 )， 根 据 在 基因 结构 重组 时 如 何 
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使 用 父 代 个 体 的 基因 ， 交 叉 可 分 为 单 点 交叉 、 多 点 交叉 和 均匀 交叉 。 还 有 
一 种 叫 作 平均 交叉 的 交叉 ， 它 会 生成 一 个 子 代 个 体 。 我 们 把 基因 由 0 和 1 
组 成 的 染色 体 的 编码 方法 称 为 二 进 制 编码 。 





单 点 交叉 点 交 义 匀 交 平均 交叉 


父 1 父 1 父 1 区 Wm 到 呆 
父 2 10011011 父 2 10011011 父 2 10011011 父 2 20022022 





U 


子 1 00io11 子 1 10001o011 子 1 1o1Wo 厂 子 11012112 
子 2 10011 朵 i 子 2 而 o11 闸 子 2 矶 而 1 由 1 





国 辐 3 四 交叉 


但 是 ， 在 需要 用 表示 数据 内 顺序 的 数值 或 实数 来 表示 基因 时 ， 二 进 制 
编码 就 很 难 派 上 用 场 了 。 在 这 种 情况 下 ， 可 以 使 用 顺序 编码 或 实数 编码 等 
其 他 形式 来 表示 基因 ， 这 么 做 还 可 以 实现 更 复杂 的 交叉 ( 国 国 SU )。 除 此 
之 外 ， 人 们 也 提出 了 一 些 其 他 的 交叉 方法 。 


























循环 交叉 部 分 映射 顺序 交叉 基于 顺序 基于 位 
匹配 ) 交叉 的 交叉 的 交叉 
父 1 123456 畴 9。 。 父 112345678 ” 父 1 12345678 父 1 12345678 ” 父 1 12345678 
父 2 6 转 487321 父 2 65487321 父 2 65487321 父 2 65 较 ?73 由 父 2 6 转 4 转 73 国 1 














县 vy Ne y Me 


子 1 648352 加 1 子 112 轩 45878 ” 子 1 123|65487 子 1 1 轩 3 因 67 四 。 子 1 1 国 3 芭 6 国 7 
子 2 1 转 237468 子 2 加 4837 


21 子 2 654|12378 子 2 65384721 子 2 62548371 





复杂 的 交叉 方法 


常见 的 交叉 如 用 | 和 二 EE 国 | 所 示 。 
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52 内 容 

单 访 变 叉 以 交叉 点 为 界 ， 交 换 两 个 父 代 个 体 的 部 分 基因 ， 产 生子 代 

多 点 交叉 在 染色 体 上 设置 多 个 交叉 点 ， 以 交叉 点 为 界 进行 基因 交换 ， 产 生子 代 
均匀 交叉 以 0 是 概率 p，1 是 概率 1-p 的 概率 对 父 代 基因 进行 交换 ， 产 生子 代 
平均 交叉 把 父 代 个 体 的 基因 平均 值 作为 下 一 代 的 基因 


























加 ”顺序 编码 中 可 用 的 交叉 


顺序 编码 中 可 用 的 交叉 说 有 明 










































































































































































































































































将 父 代 个 体 中 相同 位 置 的 基因 及 其 编码 位 置 固定 下 来 ， 剩 余 位 
仿 泌 安 训 父 信访 坷 应 信 三 的 二 妆 法 仁 丰 坟 
本 替换 父 代 编码 串 中 某 些 基因 位 置 的 编码 ， 剩 余 位 置 用 相应 编码 的 
部 分 映 史 交叉 匹配 数字 进行 替换 ， 产 生子 代 
本 在 父 代 某 些 基因 位 置 分 区 ， 剩 余 位 置 用 父 代 2 的 基因 按 顺 序 填 
I 充 ， 产 生子 代 
在 父 代 1 中 随机 挑选 几 个 基因 ， 按 排列 顺序 将 其 添加 到 父 代 2 





























基于 顺序 的 交叉 中 ， 生 成 子 代 2 的 染色 体 。 父 代 2 对 应 位 置 的 基因 也 按 顺 序 添 加 
到 父 代 1 中 ， 生 成 子 代 1 的 染色 体 

将 随机 挑选 的 父 代 1 的 基因 与 父 代 2 相同 位 置 的 基因 相互 替换 ， 
剩余 位 置 的 编码 用 原来 的 父 代 编码 填充 ， 产 生子 代 
















































































基于 位 置 的 交叉 
































变异 也 是 一 种 基因 操作 的 方法 ， 是 由 一 个 父 代 个 体 产 生 一 个 子 代 个 体 
的 方法 。 

使 用 淘汰 和 交叉 的 目的 是 提高 种 群 中 个 体 的 适应 度 ， 而 引入 变异 的 目 
的 是 使 遗传 算法 具有 随机 搜索 能 力 ， 它 在 摆脱 局 部 最 优 方面 具有 良好 的 效 
果 。 个体 发 生变 异 的 概率 称 为 变异 率 ， 我 们 通常 会 将 变异 率 的 值 设 为 远 远 
低 于 交叉 率 的 值 。 变 异 的 种 类 如 回 隔 区 让 和 十 辆 | 所 示 。 






























































区 E30 变异 


变异 的 种 类 


变异 的 种 类 说 明 

















































































































































































































































































































置换 等 位 基因 替换 随机 选择 的 基 医 

扰动 ( 当 基因 为 实数 值 时 ) 在 随机 选择 的 基因 中 加 上 或 减 去 一 小 部 分 
交换 交换 两 个 随机 选择 的 基因 的 位 

反 转 颠倒 两 个 随机 选择 的 基因 之 间 的 顺序 

争夺 随机 交换 两 个 随机 选择 的 基因 之 间 的 顺序 

移 位 把 两 个 随机 选择 的 基因 之 间 的 基因 替换 到 其 他 位 

移动 把 两 个 随机 选择 的 基因 中 的 一 个 移动 到 另 一 个 基因 之 前 

缺失 除 一 定 长 度 的 基因 ( 基因 长 度 改变 ) 

复制 复制 随机 选择 的 基因 ( 基因 长 度 改变 ) 

插入 添加 一 定 长 度 的 基因 ( 基因 长 度 改变 ) 


遗传 算法 的 应 用 示例 





旅行 商 问题 ( Traveling Salesman Problem，TSP ) 是 遗传 算法 的 一 个 
典型 的 应 用 示例 (回国 区 罚 )。 它 也 是 一 个 图 谱 搜 索 的 优化 问题 ， 具 体 来 
说 就 是 如 何 用 最 低 的 成 本 到 达 目 的 地 ， 以 及 如 何 高 效 地 在 印 制 电路 板 上 打 
孔 等 。 
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妈 谱 搜索 的 示例 























推销 员 从 一 个 城市 出 发 ， 需 要 经 过 
有 城市 后 回 到 出 发 地 ， 这 时 需 
条 总 行程 ( 或 时 间 ) 最 短 的 
行进 路 线 。 旅 行商 问题 就 是 计算 路 
线 的 组 合 优化 问题 。 






































旅行 商 问题 


除 此 之 外 ， 遗 传 算法 还 可 以 用 来 计算 蛛网 的 最 优 形状 。 可 以 把 蜘蛛 丝 
的 拉 伸 角 度 和 总 伸 长 量 等 作为 参数 ， 根 据 种 群 规 模 生 成 多 个 个 体 ， 然 后 从 
中 选择 能 够 有 效 捕 获 昆 虫 的 个 体 作 为 适应 度 高 的 蛛网 。 在 数值 分 析 方面 ， 
在 开发 N700 系列 新 干线 时 使 用 了 遗传 算法 来 确定 车 头 的 形状 。 另 外 , 在 
设计 第 一 架 日 本 国产 喷气 式 飞 机 的 机 权时 ， 也 使 用 了 遗传 算法 进行 优化 ， 
同时 实现 了 降低 燃油 耗 和 外 部 噪声 的 目的 。 除 工业 用 途 以 外 ， 在 金融 行 
业 的 金融 工程 领域 ， 遗 传 算法 也 可 以 用 于 设计 交易 系统 以 及 优化 证 券 投资 
组 合 。 

但 是 ， 遗 传 算 法 在 如 何 设 计 适应 度 、 如 何 基于 详细 的 交叉 方法 提高 适 
应 度 等 方面 还 很 难 完全 自动 得 出 结果 ， 因 此 在 很 大 程度 上 需要 人 工 辅助 。 
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神经 网 络 





下 面 笔者 来 介绍 神经 网 络 。 





要 点 、 @ 神经 网 络 
包 技 ( 中 间 层 、 隐 藏 层 ) 
包 层 激活 函数 


























志 Hebb 定律 和 形式 神经 元 


和 遗传 算法 一 样 ， 神 经 网 络 也 源 自生 命 现象 。1943 年 ， 研 究 人 员 发 
现 当 神 经 细胞 ( 神经 元 ) 接收 的 来 自 其 他 神经 细胞 的 电子 信号 超过 某 个 阔 
值 时 ， 该 神经 细胞 也 将 向 下 一 个 神经 细胞 传导 信号。 研究 人 员 将 这 种 行为 
转化 为 数理 模型 。 

这 个 模型 称 为 McCulloch-Pitts 模型 ( 回国 区 鸭 )， 实 际 上 神经 细胞 之 间 是 
通过 突 触 连接 的 ， 当 神经 递 质 移动 时 ， 接收 贡 的 神经 细胞 的 细胞 膜 内 外 会 产 
生 微 小 的 电位 差 ( 膜 电 位 )， 这 个 电位 差 可 以 作为 电子 信号 实现 可 视 化 。 















































McCulloch-Pitts 模 型 医 

















神经 细胞 由 一 个 轴 索 和 多 
个 树 状 突起 组 成 ， 树 状 突 
个 突 触 会 接收 来 
他 神经 细胞 轴 索 的 神 
。 刺激 会 沿 着 粗 箭 
头 的 方向 移动 。 
































McCulloch-Pitts 模 型 


神经 细胞 
(神经 元 ) 当 输 入 x 与 权重 w 的 乘积 和 大 于 某 个 闻 值 时 ， 输 
出 y 为 1。 该 输出 会 传递 给 下 一 个 神经 元 
有 是 单位 跃 阶 函数 。 

















McCulloch-Pitts 模型 


第 5 章 ”权重 和 优化 程序 | 115 





McCulloch-Pitts 模型 中 提出 的 神经 细胞 连接 模型 称 为 形式 神经 元 。 我 
们 也 可 以 认为 形式 神经 元 是 图 网 络 的 构成 元 素 。 

形式 神经 元 对 接收 的 数值 进行 求 和 ， 并 在 过 滤 后 输出 ， 所 以 形式 神经 
元 也 称 为 元 素 。 

McCulloch-Pitts 模型 会 在 神经 元 产生 输出 时 ， 通 过 单位 跃 阶 函数 甩 确 
定 靖 值 。 函 数 瑟 在 x<0 时 y=0, 在 x>0 时 y=1, 在 x=0 时 0 三 y 志 1。 























对 这 种 形态 进一步 简化 后 就 是 医 本 二 型 这 样 的 形式 。 用 隙 数 / 表 示 有 H， 





攻略 22 形式 神经 元 


1949 年 ， 针 对 神经 细胞 通过 突 触 进行 传递 时 ， 突 触 会 随 着 自身 活动 
的 加 强 或 减弱 相应 得 到 加 强 与 减弱 这 一 现象 ， 人 类 提出 了 一 个 假设 一 一 突 
触 是 灵活 连接 的 ， 也 就 是 突 触 具有 可 塑性 。 这 个 假设 后 来 也 得 到 了 实际 证 
明 。 不 过 ， 人 们 更 关注 的 是 突 触 可 塑性 与 学 习 之 间 的 密切 关系 。 

神经 细胞 之 间 的 连接 加 强 与 记忆 固化 、 运 动 掌 握 等 学 习作 用 紧密 相 
关 。 这 是 由 唐纳德 . 赫 布 (Donald Olding Hebb ) 提出 的 理论 ， 所 以 被 命 
名 为 Hebb 定律 (Hebb’s rule， 又 称 赫 布 定 律 )。 

用 Hebb 定律 解释 形式 神经 元 就 是 权 值 会 随 着 输入 值 和 输出 值 发 生 改 
变 (ES ). 












































一 把 和 作为 输入 更 新 





w 
* 了 


Hebb 定律 中 对 形式 神经 元 的 反馈 
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十 神经 网 络 


由 多 个 形式 神经 元 连接 构成 的 神经 回路 图 的 数学 模型 称 为 神经 网 络 。 
神经 网 络 中 相同 类 型 的 元 素 并 行 排列 形成 的 单元 (unit ) 统称 为 层 。 常 见 
的 神经 网 络 如 国 因 有 1 所 示 。 用 节点 ( 圆 峰 ) 表示 神经 元 或 输入 的 状态 ， 
沿 着 篆 头 方向 进行 处 理 。 也 可 以 在 图 中 为 接收 输入 的 节点 添加 激活 函数 。 

如 果 神 经 网 络 的 组 成 单元 数 增多 ， 那么 可 以 把 多 个 单元 聚合 到 一 起 ， 
用 四 边 形 表示 一 个 层 ,或 者 用 其 他 节点 表示 节点 之 间 的 激活 函数 部 分 。 

神经 网 络 中 不 同 层 的 组 成 单元 个 数 可 以 相同 ， 也 可 以 有 所 增 减 。 当 层 
数 大 于 等 于 3 时 ， 输 入 层 和 输出 层 之 间 的 层 就 称 为 中 间 层 或 隐藏 层 。 

如 果 一 个 神经 网 络 的 中 间 层 数目 较 多 ， 这 个 神经 网 络 就 称 为 多 层 神经 
网 络 或 深度 神经 网 络 ( 图 辐 区 )- 















































输入 层 ”输出 层 


区 了 




















神经 网 络 的 示例 
形式 神经 元 以 及 多 个 形式 神经 元 组 成 的 神经 网 络 具 有 以 下 特性 ， 上 有 具体 
如 有 所 示 。 
神经 网 络 的 特性 
分 散 性 、 有 多 个 相同 或 相似 的 神经 元 ， 以 及 由 神经 元 构成 的 单元 。 它 们 之 间 通 过 相互 
连接 来 交换 信息 


局 部 性 和 个 神经 元 接收 到 的 信息 会 变 成 来 自 其 邻接 神经 元 的 输入 信号 的 状态 、 神 经 
区 元 自身 的 内 部 状态 、 输 出 信号 的 状态 ， 或 者 邻接 神经 元 的 邻接 神经 元 的 状态 
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( 续 ) 











神经 元 在 接 


收 输入 信号 时 ， 会 根据 神经 元 之 间 的 连接 情况 施加 权重 ( 连接 权 

















E )， 把 带 权重 的 输入 总 和 或 输入 值 通过 利 线 性 函数 进行 转换 ， 将 得 到 的 输 














权重 和 














闻 























可 塑性 





泛 化 能 力 


连接 权重 根据 神经 元 接收 的 输入 信号 发 生变 化 ， 这 称 为 可 塑性 。 可 塑性 可 
于 神经 网 络 的 训练 和 自 组 织 


神经 网 络 不 仅 能 够 对 学 习 过 的 特定 情况 做 出 符合 期 望 的 动作 ， 还 能 通过 插值 















































蔓 激活 函数 


和 外 推 等 来 应 对 未 学 习 过 的 情况 








形式 神经 元 对 接收 的 输入 值 进行 输出 时 ， 会 用 到 一 个 名 为 激活 函数 的 
非 线 性 函数 。 该 函数 会 基于 阔 值 来 调整 神经 元 的 输出 。 激 活 函 数 包括 





McCulloch-Pitts 模型 


到 (WS) 


Step 函 数 





单位 跃 阶 函 数 





| Bg > 
y=f/(x)=1c, x=0, 
0, x<0 


。 Step 函数 


( 1, x=0 
yp=f(7)= Dn 


加 5” 激活 函数 














单位 跃 阶 函 





! 使 用 的 单位 跃 阶 函数 ， 还 有 Step 函数 和 Sigmoid 郴 


数 Sigmoid 函 数 


。 Sigmoid 函数 


y=f00=— 
1+ 








Step 函数 与 单位 路 阶 函数 相似 ， 与 狄 拉克 delta 函数 在 (- ,+ ) 上 
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的 积分 相等 。 


Sigmoid 函数 是 一 个 连续 函数 ， 当 x= 一 % 时 ， 输 出 无 限 趋 近 于 0， 当 
x=+o 时 ， 输 出 无 限 趋 近 于 1， 当 x=0 时 ， 输 出 为 0.5。 该 函数 的 计算 公 




















式 与 Logistic 回归 


! 使 用 的 Logistic 冰 数 的 反 函 数 相同 。Sigmoid 函数 可 以 


写作 sigmoid(x) 或 o(x)。 
另外 ， ee 与 Sigmoid 函数 相似 。 当 x= 一 ww 时 ， 输 
， 当 x=+o 时 ， 输 出 无 限 趋 近 于 1。 





出 无 限 趋 近 于 一 








在 神经 网 络 的 早期 研究 中 ，20 世纪 50 年 代 提 出 的 基于 McCulloch- 
Pitts 模型 的 学 习 机 器 就 是 感知 器 (国有 )。 



































/为 了 更 好 地 分 类 。 这 里 设 当 wgp(x) 大 于 某 个 阅 值 就 
而 调整 = 学 习 ” 输出 1 ( 正 例 ) ， 否 则 输出 -1 
( 负 例 ) 的 函数 


























感知 器 的 模型 图 





学 习 算 法 中 应 用 了 Hebb 定律 。 根 据 函 数 的 输出 值 ， 感 知 器 会 向 正 梯 





度 方向 或 负 梯 度 方向 调整 权重 系数 。 


把 两 种 状态 分 别 设置 为 正 例 和 负 例 。 如 果 输 出 值 wp(x) 为 正 例 ， 就 向 




















正 梯度 方向 调整 权重 


EE 系数， 如果 输 出 值 wg(x) 为 负 例 ， 就 向 负 梯 度 方向 调 


整 权重 系数 。7 称 为 学 习 系数 ( 图 上 本 区 习 )。 
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。 为 正 时 。 为 负 时 
w Ee©w+n' p(x) w <E©w—n' p(x) 





权重 系数 的 更 新 公式 
关于 单 层 感知 器 ， 存 在 以 下 定理 。 


。 感知 器 收敛 定理 
如 果 训 练 数据 是 线性 可 分 的 ( 当 训练 数据 分 为 正 例 和 负 例 时 )， 感 
知 器 算法 会 在 有 限 次 迭代 运算 后 收敛 ， 找 到 分 类 超 平 卫 


但 是 ,感知 器 算法 也 存在 一 定 的 局 限 性 。 如 果 数 据 线性 不 可 分 ,算法 
就 无 法 收 傅 ， 即 使 数据 线性 可 分 ,算法 也 需要 很 长 时 间 才 能 收敛 ( 医 BE0l ). 














[e) 




















线性 可 分 线性 不 可 分 


数据 线性 可 分 / 线性 不 可 分 


车 玻 尔 兹 曼 机 

感知 器 中 的 信息 从 输入 节点 单方 向 前 进 到 达 输 出 节点 。 而 在 1986 
年 杰 夫 ' 辛 顿 (Geoffrey Hinton ) 等 人 提出 的 神经 网 络 结构 玻 尔 兹 曼 机 
( 茵 本 村 看 ) 中 ， 所 有 节点 之 间 的 连 线 都 是 双向 的 。 所 以 玻 尔 兹 曼 机 具有 人 负 
反馈 机 制 ， 节 点 向 相 邻 节点 输出 的 值 会 再 次 反馈 到 节点 本 身 。 
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慨 ( 输入 层 








委 茂 层 ( 中 间 

















慨 ( 输出 


4-2-4 解 码 器 








玻 尔 兹 曼 机 





玻 尔 兹 曼 机 的 输出 是 按照 某 种 概率 分 布 进行 的 。 





ll 
在 Sigmoid 函数 中 添加 参数 7， 计算 /= 。 了 称 为 温度 参 
数 ，Sigmoid 函数 的 梯度 会 随 着 了 值 的 变化 而 变 得 陡峭 或 缓慢 。 假 设 jw/ 刀 
的 函数 值 表 示 输 出 值 为 1 的 概率 为 P， 那 么 输出 值 为 0 的 概率 就 是 1-P。 


首先 设 定 一 个 较 高 的 温度 7， 通 过 迭代 计算 逐渐 降低 温度 直到 了 =0， 








这 样 网 络 能 量 可 以 收敛 到 最 小 值 ， 而 不 会 陷入 极 小 值 。 这 个 方法 称 为 模拟 
退火 算法 (Simulated Annealing，SA )。 之 所 以 叫 这 个 名 字 ， 是 因为 它 与 通 


党 贡 


过 加 热 后 冷却 金属 材料 来 去 除 内 部 缺陷 的 退火 法 相似 。 

玻 尔 效 曼 机 因 样 本 分 布 遵循 玻 尔 效 曼 分 布 而 得 名 。 

玻 尔 效 曼 机 开辟 了 统计 力学 领域 ， 特 别 是 在 研究 热力 学 第 二 定律 和 概 
率 计 算 之 间 的 关系 时 ， 箭 值 可 以 用 来 表示 气体 中 原子 和 分 子 等 的 混乱 程 
度 。 依 值 武大 物质 越 不 稳定 ， 和 值 越 小 物质 越 稳定 ， 这 与 网 络 的 能 量 函 数 
会 收敛 到 最 小 值 直 接 相关 。 

和 感知 器 一 样 ， 玻 尔 效 曼 机 也 能 进行 学 习 。 假 设 有 一 个 由 可 见 层 和 隐 
藏 层 组 成 的 玻 尔 效 曼 机 ， 可 见 层 节点 与 数据 的 输入 输出 有 关 ， 隐 藏 层 节点 
的 作用 是 提高 内 部 自由 度 。 这 种 玻 尔 效 曼 机 会 使 用 可 见 层 和 隐藏 层 的 节点 
数 ， 它 也 可 以 称 为 N-M-N 编码 器 (M<N)。 1 的 公式 使 用 了 赤 池 
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信息 量 准则 ”来 衡量 两 层 之 间 的 环境 差 。 














+ Pp 
G=> hn ※ :In 是 以 e 为 底数 的 


a 














玻 尔 兹 曼 机 学 习 的 赤 池 信息 量 准则 公式 


玻 尔 兹 曼 机 的 学 习 指 迭 代 实 施 正 向 学 习 阶段 和 反 向 学 习 阶段 。 记 表 
示 在 正 向 学 习 阶 段 ， 当 用 训练 数据 给 定 可 见 层 的 状态 时 ， 状 态 a 出 现 的 概 
率 ; 已 表示 在 反 向 学 习 阶 段 ， 当 网 络 中 的 所 有 节点 自由 运行 时 ， 状 态 
出 现 的 概率 〈 图 四 芝 习 )。 


二 + uA 
pi = 2 Pexex 
[24 


-SPp- pp 
py = 2 Pyxfx) 
加 


Aw; =7(p; — py) 





权重 系数 的 更 新 公式 


a 表示 节点 的 状态 组 合 ， 其 数量 与 训练 数据 的 个 数 相等 。 只 有 当 正 向 
学 习 阶段 和 反 向 学 习 阶 段 的 概率 分 布 一 致 时 ，G 才 会 变 成 0， 否 则 G 为 正 
值 。 我 们 可 以 使 用 梯度 下 降 法 等 方法 来 迭代 更 新 权重 系数 以 使 G 降 到 最 小 
值 。 在 更 新 权重 系数 时 ， 需 要 根据 节点 的 状态 计算 出 Awye 这 里 的 了 表示 
学 习 系数 ，AW 几 也 可 以 定义 成 一 个 常数 。 这 里 的 8 表示 所 有 节点 自由 运行 
的 状态 ， 有 0 和 1 两 种 状态 ， 组 合 数 为 28” 

这 一 系列 过 程 可 用 图 昌 芝 习 表示 。 























QD Akaike Information Criterion， 简 称 AIC， 由 日 本 统计 学 家 赤 池 弘 次 创立 和 推进 。 杰 
池 信 息 量 准则 建立 在 蚁 的 概念 基础 上 ， 可 以 权衡 所 估计 模型 的 复杂 度 和 此 模型 拟 合 
数据 的 优良 性 。 译 者 注 
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系数 wy 的 初始 值 。 
继续 操作 直至 网 络 的 能 量 降 到 足够 低 。 





习 根据 训练 数据 固定 可 见 节 点 ， 1 
通过 模拟 退火 算法 计算 网 络 的 
平衡 状态 。 














根据 和 wj=7 (pj p5) 调 整 权重 系数 。 

















F 衡 状态 下 ， 节 点 i 看 0 节 计算 在 平衡 状态 下 ， 节 点 和 和 节点 /的 输 
点 的 输出 值 均 为 1 的 概率 pj。 出 值 均 为 1 的 概率 p5。 


























向 学 所 有 节点 运行 ， 通 过 模拟 退火 
习 阶 段 ) 算法 计算 网 络 的 平衡 状态 。 
































玻 尔 兹 曼 机 的 学 习 算 法 


我 们 可 以 把 玻 尔 兹 曼 机 看 作 约 翰 : 霍 普 菲尔德 (John Hopfield ) 于 
1982 年 提出 的 Hopfield 神经 网 络 的 一 种 形态 。 玻 尔 兹 曼 机 与 20 世纪 70 
年 代 提 出 的 联想 记忆 模型 (associative memory model) 和 联结 主义 
(connectionism ) 有 一 定 关系 。 所 以 ， 当 节点 状态 变化 后 ， 就 连 网 络 构建 
者 也 很 难 预测 网 络 的 全 局 状态 ， 当 时 人 们 非常 期 竺 玻 尔 效 曼 机 在 功能 方 国 
有 所 创新 。 


玻 尔 效 曼 机 中 相 邻 节点 之 间 没 有 方向 性 ， 所 以 我 们 可 以 认为 它 具 备 反 
馈 机 制 。 在 单 向 传播 的 神经 网 络 中 也 能 构建 出 这 种 机 制 。 

笔者 前 面 介绍 过 的 感知 器 中 的 权重 系数 更 新 就 是 一 种 反馈 机 制 。 在 包 
含 多 个 中 间 层 的 阶层 型 神经 网 络 中 ， 有 一 种 利用 输出 层 的 输出 值 与 训练 数 
据 之 间 的 误差 来 调整 中 间 层 神经 元 特性 的 机 制 误差 反问 传播 算法 
( backpropagation )。 误 差 反 向 传播 算法 是 20 世纪 80 年 代 提 出 的 学 习 方 法 。 





































































































壤 多 层 感知 器 








单 层 感知 器 只 有 输入 层 和 输出 层 ， 它 仅 对 线性 可 分 问题 具有 分 类 能 力 ， 








并 且 特 别 耗 时 。 为 了 解决 这 些 问 题 ， 多 层 感知 器 应 运 而 生 ( 医生 )。 
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方便 起 见 ， 可 以 
归 分 析 那 样 



































; 标记 过 的 训练 

| 数据 

: 把 输出 结果 和 

; 标记 数据 进行 

。 比较 ， 继 续 兴 

机 ; 代 使 误差 减 小 

偷 出 层 标记 数据 






















































































多 层 感知 器 


多 层 感 知 器 由 多 个 单 层 感知 器 组 合 而 成 ， 即 使 是 非 线 性 分 布 ， 通 过 硬 
性 的 映射 迭代 后 也 能 转换 为 线性 分 布 。 

在 多 层 感知 器 中 ， 首 先 正 向 计算 每 一 层 的 输出 ， 然 后 通过 反 向 传播 算 
法 从 输出 层 开 始 反 向 更 新 权重 系数 。 这 个 过 程 适用 于 有 标记 数据 的 网 络 学 
习 (有 监督 学 习 )。 

我 们 可 以 使 用 回归 分 析 中 使 用 的 误差 函数 来 反映 最 小 二 乘 误 差 . 然后 
使 用 梯度 下 降 法 ， 以 此 来 比较 输出 结果 与 标记 数据 。 

当 神 经 网 络 的 输出 层 只 有 一 个 节点 时 ， 可 通过 二 分 类 (0 或 1) 或 实 
数 来 表示 ， 当 输出 层 有 多 个 节点 时 ， 可 通过 多 分 类 来 表示 。 


在 神经 网 络 的 学 习 过 程 中 ， 通 过 网 络 和 外 界 的 信息 交互 ， 即 通过 输入 
数据 和 更 新 输出 后 的 权重 系数 自发 地 向 有 序 转变 的 过 程 称 为 自 组 织 (self 
organization )。 除 了 神经 网 络 ， 自 组 织 也 存在 于 高 分 子 化 合 物 和 生物 体 

例如 ， 在 制备 有 机 薄膜 时 ， 利 用 同类 型 高 分 子 聚 合 物 易于 聚集 的 特 
性 ， 可 通过 天 然 方 法 制备 有 机 薄膜 ， 无 须 消耗 过 多 的 能 量 。 而 且 在 薄膜 的 
制备 过 程 中 ， 通 过 改变 温度 和 压力 等 条 件 ， 我们 可 以 对 有 机 薄膜 进行 多 种 
操作 。 

在 生物 体 中 ， 已 知 在 小 鼠 等 路 齿 动 物 大 脑 皮层 的 躯体 感觉 皮层 中 ,和 神 
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经 元 组 成 的 “ 桶 ”与 小 鼠 嘴 上 的 胡须 一 一 对 应 。 这 些 “ 桶 ”排列 在 一 起 形 
成 桶 阵 ( 图 国 BE )。 无 论 是 从 微观 角度 还 是 从 宏观 角度 ， 相 似 的 物质 和 功 
能 总 是 位 于 相 邻 区域 。 通 过 这 个 现象 ， 我 们 很 容易 想到 神经 网 络 经 过 学 习 
后 ， 可 能 也 会 产生 类 似 的 现象。 











大 脑 的 躯体 感觉 


























后 ， 传 递 刺 激 











小 鼠 的 桶 阵 图 


3 大 阪 大 学 研究 小 组 解密 为 什么 美味 的 食物 能 够 增进 食欲 


实验 表明 ， 人 们 在 享受 美味 的 食物 时 ， 上 肠胃 的 活动 也 会 变 得 活跃 ， 从 而 增 
食 。 这 可 能 是 刺激 通过 味觉 中 枢 传递 到 了 相 邻 的 控制 肠胃 的 区 域 所 造成 的 。 

我 们 知道 大 脑 中 有 一 个 叫 作 下 丘脑 的 结构 负责 控制 食欲 。 研 究 发 现 ， 可 能 存 
在 一 条 路 径 使 味觉 中 枢 受 到 的 刺激 传递 到 控制 肠胃 的 区 域 。 
在 自 组 织 中 ， 像 桶 阵 那样 ， 接 收 同一 位 置 的 刺激 的 功能 体 也 会 聚集 在 同一 位 

不 过 功能 体 之 间 区 分 明确 。 还 有 一 种 情况 是 相关 的 功能 之 间 ( 比如 味觉 和 消 
器 官 ) 可 能 存在 联络 通道 ， 这 在 微观 角度 也 能 产生 相应 的 作用 。 

此 我 们 可 以 预测 ， 今 后 将 有 越 来 越 多 的 人 工 智能 研究 人 员 通 过 模拟 大 脑 中 

各 功能 区 的 位 置 和 功能 来 设置 神经 网 络 中 各 组 件 的 位 置 。 不 过 ， 设 置 的 位 置 与 大 

次 相 同 就 能 自然 而 然 地 得 到 相应 的 功能 吗 ? 这 就 涉及 其 他 话题 了 。 
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统计 机 器 学 习 ( 概 
率 分 布 和 建 模 ) 





























机 器 学 习 中 利用 了 大 量 的 神经 网 络 ， 需 要 耗费 大 量 的 计算 
机 资源 ,所 以 在 21 世纪 以 前 ,机 器 学 习 的 引入 受到 了 限制 。 
与 此 同时 ， 人 们 也 利用 基于 概率 分 布 函数 和 数学 模型 的 统 
计 机 器 学 习 对 各 种 数据 进行 了 研究 和 开发 。 本 章 ， 笔 者 将 
对 各 种 概率 分 布 和 贝 叶 斯 统计 学 的 基础 一 一 贝 叶 斯 定理 、 
贝 叶 斯 估计 和 MCMC ( 马尔 可 夫 链 蒙特 卡 罗 方 法 ) 等 进 
行 说明 。 






















































































第 6 章 


| 统计 机 器 学 习 ( 概率 分 布 和 建 模 ) 








下 面 来 介绍 一 下 统计 模型 和 概率 分 布 。 


要 


包 机 器 学 习 

名 广义 线性 模型 和 基 荡 数 
包 主要 的 基 函 数 

名 其 他 非 线性 函数 














统计 模型 和 概率 分 布 





现象 基于 概率 发 生 
世界 上 绝 大 多 数 事 情 的 发 生 基 于 某 种 概率 。 比 如 抛 搓 硬 币 时 是 正面 朝 








上 还 是 反 国 




















ij 朝 上 、 人 台风 向 北 移动 时 的 预测 范围 及 天 气 ， 甚 至 明天 是 否 会 发 








生 交 通 事故 、 太 阳 是 否 升 起 等 现象 都 可 以 用 概率 来 表示 。 


在 第 4 章 的 回归 分 析 部 分 ， 笔 者 介绍 了 根据 二 维 平 




















变量 的 散 点 图 拟 合 线性 函数 的 方法 。 
这 个 方法 看 起 来 与 概率 无 关 ， 但 实际 上 并 非 如 此 。 在 求 最 佳 拟 合 函数 
时 设 定 的 误差 函数 与 概率 有 关 。 这 是 因为 在 绘制 某 种 测定 结果 的 散 点 图 
时 ， 误 差 出 现 的 概率 通常 遵循 菜 种 概率 分 布 。 我 们 把 这 种 误差 称 为 测量 误 
差 ， 测量 误差 的 分 布 服从 正 态 分 布 规律 。 
某 些 遵循 一 定 概率 分 布 的 误差 会 导致 自 变量 和 因 变 量 产生 俩 差 ， 同 时 














i 上 的 自 变 量 和 因 














模型 ( 固 [33 )- 


自 变 量 和 因 变 量 之 间 的 相关 性 也 服从 某 种 概率 ， 这 样 的 模型 称 为 概率 分 布 
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以 ax+5b 为 中 心 ， 把 
样本 偏离 中 心 的 误差 8 现 的 概率 
绘制 成 散 点 图 ， 就 会 
发 现 误差 出 现 的 概率 
服从 正 态 分 布 

















J 





测量 误差 和 正 态 分 布 


| 

机 需 学 习 这 个 词 容易 让 人 们 联想 到 机 顺 进 行 学 习 。 我 们 在 第 5 章 中 把 
神经 网 络 根据 输入 数据 调整 自身 权重 系数 的 行为 称 为 学 习 。 

机 需 学 习 根据 输入 数据 的 特征 和 分 布 趋势 ， 对 数据 进行 自动 分 割 和 
重建 ， 以 得 到 最 优 的 数据 描述 。 在 统计 机 器 学 习 中 ， 这 与 概率 的 概念 密切 
相关 。 

展示 的 内 容 略 显 杂 乱 ， 不 过 我 们 可 以 通过 该 图 来 看 一 下 回归 分 
析 与 机 器 学 习 之 间 的 相关 性 。 
































所 谓 的 
数据 挖掘 











【线性 可 分 ) oy 「 简 肥 网 外 ] 


回归 分 析 与 统计 机 器 学 习 之 间 的 相关 性 








这 里 也 包含 了 基于 神经 网 络 的 方法 。 对 输入 数据 进行 回归 分 析 的 主要 
目的 是 识别 和 预测 数据 ， 利 用 的 是 数据 可 以 通过 线性 组 合 来 表示 的 特 
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性 。 这 与 根据 已 标记 的 训练 数据 (或 监督 信号 ) 创建 数据 模型 的 有 监督 学 
习 相 近 。 
另外 ， 基 于 神经 网 络 对 和 输入 数据 进行 学 习 利 用 了 数据 可 以 转换 为 线性 
























































可 分 的 形式 这 一 点 。 如 果 数 据 线 性 可 分 ， 就 可 以 使 用 回归 分 析 等 线性 组 合 
方法 。 
我 们 也 可 以 不 通过 神经 网 络 ， 直 接 在 有 监督 学 习 或 无 监督 学 习 (unsupervised 




















learning ) 中 使 用 输入 数据 。 

无 监督 学 习 使 用 的 输入 数据 是 完全 没有 标记 的 ， 例 如 聚 类 ( clustering ) 
和 降 维 (dimensionality reduction )。 另 外 ， 我 们 也 可 以 把 密度 估计 看 作 一 种 
无 监督 学 习 。 对 数据 进行 识别 、 预 测 或 聚 类 ， 进 而 发 现 新 的 数据 特征 的 过 程 
称 为 数据 挖掘 ( data mining )。 聚 类 和 降 维 的 主要 作用 是 使 数据 挖掘 的 结 
果 可 视 化 ， 其 目的 是 在 不 需要 人 类 直接 干预 的 情况 下 能 识别 和 预测 数据 。 






































过 广义 线性 模型 和 基 范 数 














如 果 自 变量 和 因 变 量 是 一 一 对 应 的 ， 绘 制 散 点 图 时 就 可 以 用 标准 正 交 基 
来 表示 它们 。 标 准 正 交 基 可 以 理解 为 直角 坐标 系 中 的 空间 向 量 的 坐标 轴 。 

在 标准 正 交 基 中 ， 变 量 的 个 数 可 以 根据 向 量 的 维 数 增加 ， 所 以 标准 正 
交 基 也 可 以 表示 高 于 三 维 的 模型 。 坐 标 轴 两 两 垂直 ， 即 向 量 线性 独立 〈 或 
线性 无 关 )。 回 归 分 析 就 是 试图 利用 线性 独立 的 自 变 量 的 线性 组 合 ( 自 变量 
的 和 ) 来 预测 因 变量 ， 如 果 自 变量 之 间 具 有 线性 相关 关系 ， 就 说 明 出 现 了 自 
变量 混淆 。 自 变量 也 称 为 独立 变量 ， 因 变量 也 称 为 从 属 变量 。( 区 PF )。 

















































































































二 维 (ax+by=c) 三 维 (ax+by+cz=q) 





标准 正 交 基 
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自 变 量 也 可 以 是 一 个 函数 ， 这 种 函数 称 为 基 函 数 。 例 如 广义 线性 模型 
和 混合 正 态 分 布 等 能 够 刻画 非 正 态 分 布 的 混合 模型 ， 这 种 模型 就 是 通过 基 
函数 或 基 函 数 的 线性 组 合 来 构建 的 ( ), 


























线 是 红色 
线 这 两 个 正 态 
函数 的 和 。 















































司 圈 是 向 黑色 


条 加 的 服从 正 态 分 布 的 
值 。 






























































根据 要 使 用 的 概率 分 布 模型 ， 我 们 可 将 基 画 数 分 为 连续 概率 分 布 和 离 
散 概 率 分 布 〈( 国 [5 驳 )。 


TI 











贝塔 分 布 狄 利克 雷 分 布 





主要 的 函数 模型 


瑟 1. 正 态 分 布 
正 态 分 布 又 称 高 斯 分 布 ， 它 是 最 常用 的 一 种 分 布 。 自 然 界 中 的 很 多 现 
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象 服从 正 态 分 布 ， 实 验 中 的 测量 误差 和 一 些 社会 现象 等 也 被 认为 服从 正 态 
分 布 。 另 外 ， 当 满足 一 定 条 件 时 ， 二 项 分 布 近似 于 正 态 分 布 。 

严格 来 讲 ， 为 了 便于 计算 和 简化 模型 ， 对 于 不 服从 正 态 分 布 的 数据 ， 
我 们 也 会 假设 其 服从 正 态 分 布 。E(x) 表示 平均 值 〈( 期望值 )，V(x) 表示 方 
差 (BE )。 





。 正 态 分 布 公式 





人 一 
2 


Ha- = 一 exp( 
no 

E(x)=X 

V(x)=0? 





正 态 分 布 公式 和 正 态 分 布 


世 2. 伽 马 分 布 

对 于 任意 的 自然 数 V， 伽 马 分 布 (加 辐 贸 ) 中 使 用 的 伽 马 函 数 工 等 
于 办 的 阶乘 N!。 

伽 马 分 布 有 一 些 特例 。 比 如 当 大 =1 时 ， 它 是 指数 分 布 ， 当 为 整数 时 ， 
它 是 埃 尔 朗 分 布 ; 当 为 半 整 数 ((2n 一 1)/2) 且 9=2 时 ， 它 是 卡 方 分 布 。 
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。 伽 马 分 布 公式 


一 X/1O 


e 
1(0 -T0006 


E(x)=k0 
V(x) = £0 





件 马 分 布 公 式 和 伽 马 分 布 图 


口 3. 指数 分 布 

指数 分 布 是 伽 马 分 布 的 一 种 特殊 形式 ( 医 FR 别 )。 指 数 分 布 是 描述 
( 独立 ) 事件 发 生 时 间 间 隔 的 概率 分 布 ,4 表示 单位 时 间 内 事件 的 平均 发 生 
次 数 。 指 数 分 布 与 泊 松 分 布 也 有 着 紧密 的 联系 。 指 数 分 布 与 拉 普 拉 斯 分 布 
的 形状 相似 (图 ED ). 





。 指数 分 布 公式 





fx) = Me 
ECOD =114 
Vx)=1/ 2 








指数 分 布 公式 和 指数 分 布 


























。 拉 普 拉 斯 分 布 公式 


joe= 元 espC- l= 
他 


E(x)=X 
V(x)=20° 


-4 -2 0 2 4 





拉 普 拉 斯 分 布 公式 和 拉 普 拉 斯 分 布 图 


口 4. 贝塔 分 布 

贝塔 分 布 中 变量 的 分 布 函 数 正好 是 贝塔 函数 ， 满 足 a>0, 6>0， 
0<x1。 

通过 调整 a 和， 贝塔 分 布 可 以 用 来 拟 合 多 种 不 同形 状 的 分 布 。 因 
此 ， 在 贝 叶 斯 统计 学 中 ， 贝 塔 分 布 常 作为 先 验 分 布 (prior distribution ) 模 
型 使 用 ( 回 [330 )。 
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。 贝塔 分 布 公式 


w= 
f(x) en 
B(a,pB)=T(a + p) /IT(OT(A)] 


E(x)=—o 


a+p 
_ op 
(a+pPB) (ga+B+1) 


V(x) 








贝塔 分 布 公式 和 贝塔 分 布 


蕊 5. 狄 利 克 雷 分 布 

狄 利克 雷 分 布 又 称 多 元 贝塔 分 布 ， 是 将 贝塔 分 布 从 二 维 扩展 到 多 维 的 
分 布 。 狄 利克 雷 分 布 虽然 是 一 个 连续 函数 ， 但 它 在 二 维 平面 上 就 不 是 连续 
函数 了 。 多 项 分 布 表示 事件 出 现 的 次 数 是 一 个 随机 变量 ， 而 狄 利克 雷 分 布 
表示 事件 出 现 的 概率 是 一 个 随机 变量 。 狄 利克 雷 分 布 在 自然 语言 处 理 中 也 
被 广泛 应 用 (加 [530 )。 
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。 狄 利克 雷 分 布 公式 


由 Bo 
7109=- 3mU Xi 


I Ir) 


B(Q)= Ex 


IC2w) 





狄 利克 雷 分 布 公式 


吕 6. 二 项 分 布 

我 们 把 只 有 两 种 结果 的 试验 称 为 伯 努 利 试验 ， 例 如 抛掷 硬币 时 ， 只 会 
出 现 正面 或 反面 的 情况 。 二 项 分 布 是 n 重 伯 努 利 试验 中 正 例 发 生 次 数 的 
(离散 ) 概率 分 布 〈 加 四 加 网 )， 例 如 ， 一 次 试验 出 现 正 例 的 概率 为 P， 矿 表 
示 在 n 重 伯 努 利 试验 中 正 例 出 现 次 的 概率 ，C* 是 从 总 数 n 中 取 K 个 的 
组 合 数 。 结 合 出 现 负 例 的 概率 ， 就 能 计算 出 n 重 伯 努 利 试验 中 正 例 出 现 
次 的 概率 ( 即 p*)。 二 项 分 布 近似 于 正 态 分 布 和 泊 松 分 布 。 





。 二 项 分 布 公式 


Pee-i-(? jp 


E(X)=np 
V(X)=np(1— p) 








二 项 分 布 公式 和 二 项 分 布 图 
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与 二 项 分 布 不 同 ， 负 二 项 分 布 表示 恰好 出 现 ” 次 正 例 所 需要 的 试验 次 


数 n 的 分 布 。 它 可 以 应 用 于 生命 科学 领域 ( FE ). 


。 负 二 项 分 布 公式 


E(X)=r/p 
V(X)=r(1-p)/p” 3 


pe 
S 


Qa 
S 
Eo 








负 二 项 分 布 公式 和 负 二 项 分 布 


并 8. 泊 松 分 布 





泊 松 分 布 用 来 描述 单位 时 间 内 平均 发 生 次 数 为 4 的 随机 事件 发 生 了 + 





次 的 概率 分 布 ( 医 于 潮 如 )。 泊 松 分 布 描述 的 是 单位 时 间 内 








和 件 发 生 的 次 数 


的 概率 ， 而 指数 分 布 描述 的 是 两 次 事件 发 生 的 时 间 间 隔 的 概率 密度 。 因 
此 ， 我 们 可 以 认为 泊 松 分 布 和 指数 分 布 是 从 两 个 方面 来 描述 事件 发 生 的 概 





率 的 。 
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PK -月 = 一 


(ZJ)=14 
FOOD=14 














泊 松 分 布 公式 和 泊 松 分 布 


已 9. 卡 方 分 布 

卡 方 分 布 是 伽 马 分 布 的 一 种 特殊 形式 ， 常 用 于 推论 统计 学 中 的 卡 方 检 
验 。 卡 方 检验 也 叫 作 独立 性 检验 。 对 于 来 自 多 个 总 体 的 两 个 及 两 个 以 上 的 
样本 ,我 们 可 以 利用 卡 方 检验 来 检验 这 些 样本 的 频率 分 布 是 否 具 有 普遍 
性 。 卡 方 检验 常用 于 临床 试验 和 社会 调查 ( 医 E 自 )。 





。 卡 方 分 布 公式 


= (7/2)? Kk/2-1 —x/2 
/WT DD” “。 
E(x) = 
Vx) =2k 








卡 方 分 布 公式 和 卡 方 分 布 图 
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吕 10. 超 几 何 分 布 
超 几 何 分 布 描述 无 重复 试验 中 事件 发 生 的 概率 分 布 。 例 如 ， 袋 子 中 有 
红 球 和 白 球 ， 从 中 取 半 次 球 时 取 到 大 个 红 球 的 概率 ( 四 )。 





。 超 几 何 分 布 公式 


ee 人 2/ 


E(X)=nK/N 
V(X)=(N-na(N- KK/(N-DN’ 


a 


好 二 全 
Q 00 0 0 


© © 
080999990068800880086008300000000000000000000000000000000000 





超 几 何 分 布 公式 和 超 几何 分 布 


知 每 次 取出 一 个 球 之 后 放 回 袋 中 ， 超 几何 分 布 就 会 变 成 二 项 分 布 。 超 
几何 分 布 也 能 用 于 卡 方 检验 等 统计 检验 。 





卫 11. 洛 伦 效 分 布 

洛 伦 效 分 布 通常 称 为 柯 西 分 布 ， 在 物理 学 领域 称 为 洛 伦 效 分 布 或 
Breit- Wigner 分 布 。 在 光谱 学 中 ， 柯 西 分 布 常用 于 描述 在 共振 或 其 他 机 制 
作用 下 的 电磁 波 和 放射 线 的 谱 线 分 布 〈 J 

洛 伦 效 分 布 和 正 态 分 布 的 形状 相似 ， 但 是 洛 伦 效 分 布 的 尾部 衰减 很 
慢 ， 具 有 重 尾 特性 ， 所 以 我 们 无 法 计算 它 的 平均 值 和 方差 。 
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洛 伦 兹 分 布 公式 和 洛 伦 兹 分 布 图 


过 12. Logistic 分 布 
累积 分 布 函数 是 一 个 Logistic 函数 ， 所 以 称 为 Logistic 分 布 。 其 形状 
与 正 态 分 布 相似 ， 但 比 正 态 分 布 更 平坦 ， 拖 尾 更 长 (加 [6 )。 





。 Logistic 分 布 公式 


Jo-= 一 一 一 


sl+e “人 





Logistic 分 布 公式 


口 13. 韦 布尔 分 布 
韦 布 尔 分 布 用 于 描述 物体 体积 与 强度 之 间 的 关系 ， 可 作为 可 靠 性 指标 
使 用 ， 表示 机 器 的 使 用 寿命 和 故障 时 间 等 ( 6 
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韦 布尔 分 布 公式 





JoD = 一 | 二 
JAW 








医 [ 和 及 韦 布 尔 分 布 公式 和 韦 布尔 分 布 图 











韦 布尔 分 布 及 其 特例 瑞 利 分 布 可 用 于 表示 雷达 信号 及 散射 信号 强度 的 








霸 损失 函数 和 梯度 下 降 法 
假设 在 对 函数 模型 进行 回归 分 析 时 ， 求 使 误差 的 平方 和 目标 函数 的 值 

















最 小 的 参数 。 矣 守 函 数 类 似 于 目标 函数 。 我 们 可 以 使 用 简 度 下 降 活 和 最 天 
仅 到 秸 证 ( 或 最 天 仅 然 江 ) 来 计算 损失 函数 的 最 小 值 。 

损失 函数 可 以 写成 权重 系数 向 量 w 的 函数 二 。 损 失 函 数 对 w; 求 偏 导 
后 得 到 工 的 梯度 VL(w)。 当 斜率 值 VL(w")=0 时 ，w' 就 是 我 们 要 计算 的 权 
重 系数 ( 回 [3381 )。 
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VL(Ww’)=0= minL(w) 





梯度 下 降 法 





最 速 下 降 法 ( steepest descent method ) 也 是 一 种 梯度 下 降 法 ,通过 利 
普 希 欧 连续 条 件 定义 一 个 G， 使 wi 中 的 梯度 YL(wi) 和 wi、wi,i 之 间 的 关 
系 满足 |ZOoD-ZOet 过 Ge 到 。 这 时 我 们 把 1YZOea| 入 G 称 为 收敛 条 
件 (El )。 

G、wWi 与 wisi 之 间 的 间隔 ( 步 长 ) 等 参数 通常 需要 根据 启发 式 算法 来 
确定 。w 在 满足 收敛 条 件 时 为 局 部 最 优 解 ， 但 有 时 局 部 最 优 解 并 不 等 同 于 全 
局 最 优 解 w'?。 男 外 ， 如 果 步 长 过 小 ， 可 能 就 要 花费 很 长 时 间 才 能 实现 w 。 

为 了 避免 这 些 问 题 发 生 ， 我 们 可 以 使 用 遗传 算法 或 其 他 梯度 下 降 法 ， 
还 可 以 使 用 能 够 调整 步 长 的 牛顿 法 。 

最 速 下 降 法 需要 计算 所 有 给 定数 据 的 损失 函数 ， 算 出 权重 系数 。 我 们 
可 以 把 它 看 成 一 种 批 处 理 方法 。 

但 是 ,使 用 这 种 方法 容易 陷入 局 部 最 优 解 。 另 外 ， 如 果 数 据 量 很 大 ， 

会 出 现 计算 资源 不 足 的 情况 。 我 们 可 以 采用 随机 梯度 下 降 法 (stochastic 
gradient descent method )， 该 方法 同样 能 达到 提取 部 分 数据 迭代 更 新 权重 
系数 的 学 习 模 型 的 效果 。 
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wi Wir1 Wi 
VL(w’)=0 = minL(w) 


中 VL(w, )|| 了 + We | © [ZOwin) -Low)lsG 








他) 因为 VL(w) 三 0， 所 以 VL(w') 越 趋 近 minL(w)， 该 差距 越 小 








利 普 希 茨 连续 条 件 
[ZOwn) -Low) <G lw 一 mm 
(ZO) -Tow) 1<| Vi) (win wi < Gh -mw) 


oD [VL(wi)|<G 








最 速 下 降 法 
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贝 叶 斯 统计 学 和 贝 叶 斯 估计 





下 面 来 介绍 贝 叶 斯 统计 学 和 贝 叶 斯 网 络 。 


























要 总 、@ 贝 叶 斯 定理 @ Logit 函数 
包 最 大 似 然 估计 @ EM 算法 
名 贝 叶 斯 估 主 名 贝 叶 斯 判别 分 析 








特 贝 叶 斯 定理 


贝 叶 斯 定理 是 贝 叶 斯 统计 学 的 基础 ， 它 是 有 关 条 件 概率 的 定理 。 
所 有 的 未 知 变量 都 有 不 确定 性 ， 我 们 可 以 使 用 先 验 分 布 来 表示 不 确定 
性 的 程度 ， 随 着 经 验 的 积累 ， 对 参数 的 表示 会 越 来 越 精确 。 托 马 斯 ， 贝 叶 
斯 (Thomas Bayes ) 对 这 个 过 程 非常 感 兴趣 ， 于 是 他 开始 围绕 贝 叶 斯 定理 
展开 研究 ， 并 在 二 项 分 布 中 发 现 了 贝 叶 斯 定理 的 特殊 形式 。 但 他 未 能 把 这 
种 特殊 形式 泛 化 为 我 们 现在 普遍 使 用 的 贝 叶 斯 定理 。 
贝 叶 斯 的 理论 和 应 用 的 推进 者 是 拉 普 拉 斯 ， 他 发 现 并 使 用 了 贝 叶 斯 













































































































































































定理 








贝 叶 斯 定理 用 来 描述 两 个 条 件 概 率 之 间 的 关系 。 

第 一 个 公式 定义 了 在 事件 83 已 经 发 生 的 条 件 下 事件 4 发 生 的 条 件 概 
率 。 对 这 个 公式 的 表达 形式 进行 转换 就 能 得 到 我 们 常见 的 第 二 个 公式 。 
P(4 由 B)、P(418)P(B) 以 及 P(B|4)P(4) 部 表示 事件 4 和 事件 B 同时 发 生 的 
概率 。 第 三 个 公式 定义 了 nn 个 事件 41, 4,, …, 4, 为 互 斥 事件 时 的 条 件 概率 
( BE ). 
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P(ANMB) 
P(B) 
P(B|A)P(A) 
P(B) 


P(A 1B) -PE14)P(A) 


2 P(B14,)P(4) 


P(AIB)= 


P(AIB)= 








贝 叶 斯 定理 


赛马 彩票 等 具有 博彩 性 质 的 活动 中 常 使 用 赔 率 ( odds ) 一 词 。 假 设 获 
胜 的 概率 为 P， 落 败 的 概率 为 1-P， 赔 率 就 等 于 P/(L-P)。 赔 率 越 高 说 明 
获胜 的 可 能 性 越 低 。 对 赔 率 取 对 数 得 到 的 Logit 函数 可 在 Logistic 回归 中 
使 用 。 两 个 赔 率 的 比 称 为 比值 比 ， 用 于 表示 两 个 总 体 中 两 个 事件 发 生 的 可 
能 性 的 大 小 。 

例如 ,我们 可 以 将 比值 比 用 作 新 药 临 床 试 验 中 的 疗效 指标 ,或 者 两 个 
时 期 内 男性 人 口 数 与 女性 人 口 数 的 变化 趋势 指标 等 。 比 值 比 也 可 以 用 贝 叶 
斯 定理 表示 ， 具 体 如 国土 习 所 示 。 





























P(A4|B) / P(4) _ P(B|4) 
1- P(A|B)/ 1-P(A) P(B|A') 





























(4 中 的 c 为 complement 的 简略 形式 ， 表 示 事 件 4 的 互补 事件 ) 





用 贝 叶 斯 定理 表示 比值 比 


吕 例 1: 检查 的 阳性 预测 值 

我 们 来 看 一 下 疾病 检查 中 的 阳性 预测 值 。 假 设 人 类 患 某 种 疾病 的 概率 
是 0.01， 患 病 者 进行 检查 后 结果 为 阳性 的 概率 为 0.99， 健 康 的 人 进行 检查 
后 结果 为 阳性 的 概率 为 0.10。 
患 病 者 的 检查 结果 呈 阳 性 的 概率 很 高 ， 所 以 大 家 可 能 会 认为 该 检查 效 
果 很 好 ， 但 是 计算 一 下 就 会 发 现 ， 检 查 结果 呈 阳 性 且 实 际 患 病 的 可 能 性 仅 
为 0.091， 还 不 到 10% ( 回国 2 )- 














们 
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_ P( 阳 性 | 疾病 )P( 疾 病 ) _ 0.99x 0.01 


P( 疾 病 | 阳 性 ) =0.091 








P( 阳 性 ) 0.01x0.99+0.99x0.10 





阳性 预测 值 的 计算 公式 


口 例 2: 目击 出 租车 的 颜色 

假设 发 生 了 一 起 出 租车 交通 牧 事 逃逸 事件 ， 目 击 者 称 常事 出 租车 是 蓝 
色 的 。 假 设 这 个 城市 只 有 两 种 颜色 的 出 租车 ， 其 中 蓝 色 的 占 15%， 绿 色 的 
占 85%。 相 同 条 件 下 的 试验 结果 显示 ， 被 辨认 为 蓝 色 的 出 租车 的 颜色 确实 
为 蓝 色 的 概率 是 80%。 这 时 计算 目击 者 看 到 哪 种 颜色 的 出 租车 的 可 能 性 更 
高 ,结果 显示 ， 後 事 出 租车 的 颜色 为 绿色 的 概率 是 59% ( 国有 )。 






































击 |3 色 ) P( 蓝 色 ) _0.8 0.15_12 
绿色 ) P( 绿 色 ) 0.2 0.85 17 




































































击 )= 由 此 可 得 




















出 租车 颜色 的 计算 公式 


沁 最 大 似 然 估计 和 EM 算法 








假设 观测 数据 由 原始 数据 真 值 和 噪声 组 成 ， 那 么 在 使 用 最 小 二 乘法 等 
方法 计算 真 值 时 ， 我 们 通常 会 设置 一 个 损失 函数 ， 这 个 损失 函数 也 可 以 用 
似 然 函数 代替 。 

在 求 使 似 然 函 数 最 大 的 参数 9 的 值 时 ，9 就 是 最 大 似 然 估计 ( Maximum 
Likelihood Estimation，MLE ) ( 回 上 21 )。 似 然 函数 用 于 观测 数据 出 现 的 
可 能 性 ， 而 最 大 似 然 估计 表示 噪声 分 布 最 均匀 、 业 最 大 的 状态 。 
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Ww 
minL(w) 
损失 函数 似 然 函数 





损失 函数 和 似 然 函 数 
似 然 函数 通常 是 因子 乘积 的 形式 ， 将 它 转化 成 对 数 似 然 方程 式 更 方便 
求解 ( EE )。 


OlogL(0) ologL(0)_ _ olog7(0) _ 
0600 00, 00, 


0 








对 数 似 然 方程 式 


对 于 比较 复杂 的 似 然 函 数 ， 我 们 无 法 直接 求 得 最 大 似 然 估 计 ， 所 以 通 
常 选择 迭代 计算 的 方法 。 假 设 真 值 为 完全 数据 x， 观 测 到 的 数据 y 就 称 为 
不 完全 数据 。 因 为 施加 给 x 的 作用 s 是 未 知 的 ， 所 以 我 们 无 法 根据 数据 y 
唯一 确定 数据 x ( 5 

















完全 数据 和 不 完全 数据 的 关系 


似 然 函 数 可 通过 将 删 失 数 据 转化 为 虚拟 的 完全 数据 得 到 。 对 于 含有 隐 
变量 的 概率 模型 ,我们 可 以 通过 不 完全 数据 求 该 似 然 函 数 的 最 大 似 然 估 
计 ， 这 种 方法 叫 作 EM 算法 。 

EM 算法 是 一 种 迭代 算法 ,由己 步 和 M 步 组 成 ， 用 于 求 出 对 数 似 然 
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函数 的 最 大 值 。E 步 求 依赖 于 0 (用 于 确定 下 界 ) 的 凸 函数 CO，M 步 计算 
90, 使 O 最 大 化 。E 步 中 的 0 函数 也 称 为 后 验 分 布 ( 国有 )。 


。 EM 算法 
E 步 : 求 O(-|0,)。0, 是 9s 的 第 m 个 近似 值 
=argmax, O(010,) 


M 步 : 9 


m+l 





下 一 个 E 步 对 数 似 然 函数 LogL ( 没有 
和 用 的 Kt62) 代数 解析 解 ， 形 状 未 知 ) 


卫 步 得 到 的 函 
数 O 


M 步 计算 和 使 O 最 
大 化 


EM 算法 公式 和 EM 算法 图 


沁 贝 叶 斯 估计 


贝 叶 斯 估计 法 中 样本 数据 的 总 体 分 布 不 具有 唯一 性 ， 其 密度 函数 用 x(9) 
表示 ,zz 称 为 先 验 分 布 或 主观 分 布 ( subjective distribution ) ( )。 





























[2 布 ] XM [Mt | mp [ 后 验 0 布 ] 
x(0) 


ft) OF) 








f(012)=— x f(x| 0)r(0) oe f(x| 0)a(0) 





后 验 分 布 与 “ 先 验 分 布 和 似 
7 09 然 估计 的 乘积 ”成 正比 
f(x)=|/(x|0)z(0)d0 








贝 叶 斯 估计 法 
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基于 后 验 分 布 的 参数 有 三 种 ， 分 别 是 贝 叶 斯 估计 、 后 验 中 位 数 估计 和 
MAP (最 大 后 验 概率 ) 估计 。 


人 贝 叶 斯 估计 
将 后 验 分 布 的 平均 值 作为 9 的 点 估计 ， 该 值 会 使 后 验 分 布 的 均 方 误差 
最 小 化 ( 国生 )。 


Ox) =argmin| 1:-6P Ade8 


贝 叶 斯 估计 公式 


蕊 后 验 中 位 数 估计 
将 后 验 分 布 的 中 位 数 作为 0 的 点 估计 ， 该 值 会 使 后 验 分 布 的 平均 绝对 
误差 最 小 化 〈 回 [3 芝 玉 )。 


Ox) =argmin| |:-917(O1Ddg 


后 验 中 位 数 估 计 公式 


条 MAP 估计 
将 后 验 众 数 估计 作为 9 的 点 估计 ， 该 值 会 使 后 验 分 布 的 密度 最 大 化 
( BE ). 
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f(x|0)x(0) 
f CD 


O(x) = arg max 
0 


MAP 估 计 = 对 数 似 
然 函数 的 最 大 值 











MAP 估计 公式 和 MAP 估计 图 





现代 的 贝 叶 斯 估计 通常 无 法 计算 Wx)， 但 是 我 们 可 以 将 其 转化 为 
ftx|9)x(9)=ftx, 9) 的 形式 ， 所 以 MAP 估计 能 给 出 与 数据 * 最 匹配 的 参数 。 

如 果 先 验 分 布 x(9) 和 后 验 分 布 岂 blx) 是 同类 ， 先 验 分 布 与 后 验 分 布 就 
称 为 共 斩 先 验 分 布 (conjugate prior distribution )。 

后 验 分 布 是 直接 计算 出 来 的 ， 其 特点 是 易于 处 理 。 可 以 按照 (lla) 的 
方式 增加 参数 ， 这 在 后 验 分 布 中 用 .be a) 表示 。 这 里 的 a 称 为 超 参数 。 

英文 版 维基 百科 中 列举 了 很 多 共 斩 先 验 分 布 的 例子 。《 贝 叶 斯 方法 的 
基础 和 应 用 》 中 也 有 一 些 例子 。 
例如 ， 在 一 个 由 二 项 分 布 和 贝塔 先 验 分 布 组 成 的 共 生 先 验 分 布 中 ， 两 
种 分 布 之 间 的 关系 如 回 上 加 芝 习 所 示 。 












































中 原 书 名 为 [六 又 法 基础 上 让 用 条 件 付 关 分布 上 马 统 计 下 了 1 > 人 LMCMC 
法 在 用 WW 六 二 一 夕 解析 ]， 暂 无 中 文 版 。 译 者 注 
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。 似 然 函 数 : 二 项 分 布 BCN,,D) 


中 N， 
f(x|p)= nl F (1-p)”™* 
。 先 验 分 布 : 贝塔 分 布 Beta(a, pb) 


1 
A= ol] 四 p-1 
x(pla,p) Ba By? (=7) 
IT(g+p) 
B(a,B)=— /0 
人 -in 


。 后 验 分 布 : 后 验 预测 分 布 Beta(a.,, pb.) 








0 =a+ dw, B= B+ Nx) 
Fs i=1 





后 验 预测 分 布 : 


a (NN, 
talep -TY ED 





共 赤 先 验 分 布 “二 项 分 布 - 贝塔 先 验 分 布 的 公式 


在 给 定 新 数据 D 时 ， 用 后 验 概率 密度 (0|D) 求 概率 密 度 (x|0) 的 平均 
值 ， 通 过 这 种 方式 得 到 的 x 的 密度 函数 可 以 用 后 验 预测 分 布 (posterior 
predictive distribution ) 表示 ( )。 


f(x1D)=|/(x|0)/(01D)d0 


后 验 预测 概率 的 计算 公式 


表示 在 “后 验 预 测 分 布 /(x|D) 接近 真实 的 密度 函数 jtx)” 的 理 
论 下 ， 生 成 基于 数据 D 预测 后 续 x 的 预测 公式 。 
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从 后 验 分 布 中 选取 参数 





蕊 的 值 ， 根 据 X 生 成 丈 
得 到 预测 分 布 。 





f(0|D) f(x|0) 





后 验 预测 分 布 公式 和 后 验 预测 分 布 


贝 叶 斯 判别 分 析 是 贝 叶 斯 估计 的 应 用 示例 之 一 。 判 别 分 析 是 用 于 判断 
数据 x 所属 总 体 分 布 的 一 种 统计 分 析 方 法 。 男 外 还 有 线性 判别 分 析 等 方 
法 ， 多 数 方法 是 基于 标记 数据 进行 判别 的 。 将 贝 叶 斯 思想 用 于 判别 分 析 就 
得 到 了 贝 叶 斯 判别 分 析 。 

由 叶 斯 判别 分 析 就 是 根据 N 个 总 体 分 布 为 ftxli) 的 总 体 和 先 验 分 布 
x(i)， 判 断 使 后 验 概率 最 大 的 数据 x 来 源 于 总 体 分布 ftx|i) 的 判别 方法 。i 
是 MAP 估计 )。 




































































fxIDx) 


f(ilX?)= Cf(xID AA) 


2 fC [Dz()) 





贝 叶 斯 判别 分 析 公 式 

















如 果 先 验 分 布 未 知 ， 则 x(Q)=1N，i 为 最 大 似 然 估计 。 如 果 ftxli) 中 包 
含 未 知 参 数 0， 通过 将 .jtxli) 转换 为 ftxli, 9)， 就 可 以 根据 标记 数据 计算 估计 











第 6 章 统计 机 器 学 习 ( 概率 分 布 和 建 模 ) | 151 





值 6， 未 知 参数 0 就 能 代替 真实 的 参数 0 使 用 了 。 


如 R 语言 中 的 线性 判别 和 二 次 判别 分 析 

我 们 可 以 在 RR 语言 中 使 用 LDA 或 QDA 等 函数 来 实现 线性 判别 和 二 
次 判别 分 析 。 笔 者 在 R 语言 中 使 用 LDA 函数 对 内 置 蕊 尾 花 数据 集 iris 进 
行 了 判别 。 

。 样本 : ch06-rsample-lda.zip 

下 载 地 址 : 图 灵 社 区 本 书 主 页 


这 个 数据 集中 仅 有 150 行 数据 ，3 种 功 尾 花 各 占 了 50 行 。 我 们 按照 
奇数 行 和 偶数 行将 其 划分 为 训练 集 和 测试 集 ， 用 s、c、v 代替 setosa 
( 山 苹 尾 )、versicolor ( 变色 讽 尾 ) 和 virginica ( 维 吉 尼 亚 音 尾 ) 这 3 种 交 
尾 花 。 

在 第 1 个 LDA 函数 中 ,假设 先 验 分 布 未 知 (3 种 营 尾 花 的 概率 均 为 
1/3 ), 分 类 器 用 Z 表示。 分 类 器 Z 对 训练 集 进行 线性 判别 的 错误 率 为 
2/75， 对 测试 集 进行 线性 判别 的 错误 率 为 3/75。 

在 第 2 个 LDA 函数 中 ,假设 3 种 高 尾 花 的 先 验 概率 分 布 分 别 为 1/6、 
3/6 及 206， 分 类 器 用 Z2 表示 。 分 类 器 Z2 对 训练 集 进行 线性 判别 的 错误 
率 为 /75， 对 测试 集 进行 线性 判别 的 错误 率 为 2/75。 

分 类 器 中 包括 判别 系数 LD1 和 判别 系数 LD2。 将 判别 系数 作为 判别 权 
重 ， 可 以 推导 出 判别 函数 。 我 们 可 以 在 直方 图 中 绘制 基于 LDI1 的 第 一 判别 
函数 得 分 。 根 据 结果 可 知 ， 分 类 器 判别 错误 的 原因 是 两 种 总 尾 花 数 据 的 分 
布 有 重 辣 。 对 于 重合 部 分 的 数据 ， 分 类 器 没 有 进行 正确 的 判别 ( 轿 辐 芝 双 、 
» 
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0 


group ¢ 











0 
group S 
线性 判别 分 析 第 一 判 
别 函 数 在 训练 集 上 的 
得 分 结果 
0 plot(Z, dimen=1) 


group v 











0 对 于 c 和 v， 两 个 分 类 
group 5 器 都 显示 了 相同 区 域 重 
翅 的 数据 ， 这 就 是 判别 

错误 的 原因 





























0 
group s 


贝 叶 斯 线性 判别 分 析 第 
一 判别 函数 在 训练 集 上 
的 得 分 结果 

plot(Z2, dimen =1) 





0 
group v 


“的 标记 数据 | | 。 | 。[ ，] 2 的 标记 数据 [|]。]。]v| 


训练 结果 训练 结果 


Z 的 测试 数据 | | 。 | 。 | ， | 如 的 济 二 数据 |。]。]，| 


判别 结果 判别 结果 





贝 叶 斯 判别 分 析 的 标记 数据 训练 结果 和 测试 数据 判别 结果 
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3 ] vewc 


下 面 来 介绍 MCMC 方法 。 

















要 点 、 6 圆周 率 的 近似 值 计算 问题 名 蒙特 卡 罗 方法 
名 层次 贝 叶 斯 模型 包 MCMC 方法 


澡 





























时 圆周 率 的 近似 值 计算 问 题 


在 进行 贝 叶 斯 估计 时 ， 对 组 建 的 模型 进行 多 次 计算 是 非常 重要 的 。 最 
小 二 乘法 或 非 贝 叶 斯 方法 的 最 大 似 然 估计 在 求 最 优 解 时 ， 不 需要 消耗 大 量 
资源 就 能 多 次 迭代 达到 收敛 ， 而 现代 的 贝 叶 斯 统计 学 在 求 分 布 时 ， 对 于 不 
能 用 解析 式 表 达 的 函数 ， 必 须 进 行 类 似 于 预测 和 优化 的 操作 。 这 些 操作 仅 
和 赁 人 力 很 难 实现 ， 并 且 需 要 大 量 试验 。 

在 大 幅 增加 试验 次 数 的 情况 下 ， 能 通过 随机 抽样 抽取 一 些 不 同 的 参数 是 
非常 重要 的 。 以 猜 丰 投 针 试验 为 代表 的 圆周 率 近 似 值 计算 问题 ( ) 
就 通过 迭代 随机 试验 使 结果 收敛 于 期 望 值 。 










































































蒙特 卡 罗 模 拟 薄 丰 投 针 试验 











FE 方形 内 随机 取 

数 出 落 在 正方 
形 内 切 圆 内 的 点 的 
可 计算 医 
周 率 的 近似 值 















































画 出 间距 为 7 的 平行 线 
并 投掷 长 度 为 Z 的 针 ， 计 算 针 和 直线 相 
交 的 概率 ( a ) ， 进 而 计算 圆周 率 的 近 
似 值 






























































圆周 率 的 近似 值 计算 
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强 蒙特 卡 罗 方 法 











蒙特 卡 罗 方 法 最 经 典 的 应 用 示例 就 是 计算 圆周 率 的 近似 值 。 拉 普 拉 斯 
于 1812 年 提出 可 以 通过 随机 试验 来 计算 圆周 率 的 近似 值 。 

蒙特 卡 罗 方 法 起 源 于 1946 年 原子 弹 研 制 时 期 的 一 些 想法 。 斯 坦 尼斯 
拉夫 … 乌拉 姆 (Stanislaw Ulam ) 发 现 可 以 通过 随机 试验 来 前 述 中 子 在 原 
子 核 内 的 运动 ， 冯 : 诺 依 曼 ( John von Neumann ) 等 人 根据 这 个 建议 ， 提 
出 了 基于 计算 机 的 伪 随 机 数 生成 方法 以 及 把 决定 论 问题 转化 为 概率 模型 的 
方法 。1949 年 ， 尼古拉斯 * 梅 特 罗 波 利 斯 (Nicholas Metropolis ) 和 乌拉 
姆 在 论文 中 将 这 些 方法 作为 蒙特 卡 罗 方 法 发 表 。 




































































| 小 贴 二 | 蒙特 卡 罗 方 法 这 一 名 称 的 由 来 


乌拉 姆 的 权 权 喜欢 赌博 ， 蒙 特 卡 罗 方法 中 的 蒙特 卡 罗 取 
赌博 之 国 摩纳哥 的 一 个 城市 名 。 










































































与 蒙特 卡 罗 方 法 同一 时 期 提出 的 是 在 原子 弹 研 究 过 程 中 产生 的 随机 抽 
样 方法 。 梅 特 罗 波 利 斯 等 人 提出 的 Metropolis 抽样 是 MCMC (马尔 可 夫 
链 蒙特 卡 罗 方 法 ) 的 起 源 。 

第 二 次 世界 大 战 期 间 ，Metropolis 抽样 属于 高 度 机 密 ， 直 到 1953 年 才 















































得 以 发 表 。 后 来 ， 威 尔 弗 雷 德 . 基 思 ' 黑 斯 廷 斯 (Wilfred Keith Hastings ) 
将 其 扩展 为 一 种 通用 的 多 维 随机 数 生成 方法 ， 该 方法 称 为 Metropolis- 
Hastings 算法 。 


在 计算 与 概率 分 布 P(x) 的 概率 密度 函数 成 一 定 比 例 的 函数 时 ， 
MCMC 方法 中 的 Metropolis-Hastings 算法 ( 亦 称 M-H 算法 ) 可 以 帮助 我 
们 从 任意 的 PC) 中 采样 。 计 算出 来 的 函数 只 需要 与 概率 密度 函数 成 一 定 比 
例 即 可 ， 无 须 完全 一 致 ， 因 此 Metropolis-Hastings 算法 很 适合 在 贝 叶 斯 统 
计 学 中 使 用 。 

Metropolis-Hastings 算法 会 生成 一 个 样本 序列 ， 样 本 越 多 其 分 布 越 接 
近 目 标 分 布 PCxz)。 虽 然 样 本 是 通过 迭代 算法 生成 的 ， 但 下 一 个 样本 的 生成 
概率 只 与 当前 样本 有 关 。 这 个 样本 序列 的 生成 过 程 具 有 马尔 可 夫 性 ， 称 为 

马尔 可 夫 链 。 也 就 是 说 , MCMC 方法 是 利用 马尔 可 夫 链 渐进 生成 高 维 随 
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机 数 的 方法 ( 图 四 也 引 )。 

















马尔 可 夫 链 


在 似 然 函数 或 MAP 估计 的 计算 过 程 中 ， 如 国 呈 芝 多 所 示 ， 假 设 同心 
椭圆 的 圆心 是 最 大 似 然 佑 计 或 MAP 估计 ， 则 黑 点 会 沿 着 红色 箭头 朝 
心 移动 。 在 Metropolis-Hastings 算法 等 MCMC 方法 中 ， 黑 点 是 随机 移动 
的 ， 如 果 似 然 估计 比 移动 之 前 的 小 ， 黑 点 就 会 放弃 移动 ， 即 黑 点 不 会 沿 
着 黑色 箭头 的 方向 移动 ， 而 是 朝 着 红色 箭头 所 示 的 更 高 的 似 然 估计 的 状态 
移动 。 


























GE 要 ”Metropolis-Hastings 算法 


MCMC 方法 是 在 第 二 次 世界 大 战 期 间 基 于 计算 机 发 展 起 来 的 方法 。 
随 着 计算 机 处 理 能 力 的 提高 ， 它 还 可 以 应 用 于 更 复杂 的 模型 ， 在 现实 可 接 
受 的 时 间 内 进行 采样 。 在 实际 运用 MCMC 方法 时 ， 根 据 不 同 的 初始 值 产 























156 | 图 解 人 工 智能 


生 多 个 独立 执行 的 样本 序列 ， 对 其 进行 比较 后 ， 把 结果 整合 到 一 起 的 做 法 
更 安全 。 


晤 层次 贝 叶 斯 模型 


通过 实施 MCMC 方法 ， 复 杂 的 高 维 参数 模型 的 采样 成 为 可 能 。 相 较 
于 以 往 的 模型 ， 层 次 贝 叶 斯 模型 的 设计 自由 度 更 高 ( 国 [Z3 ) 

































































线性 模型 的 发 展 
慨 次 贝 叶 斯 模型 估计 计算 方法 
(HBM) MCMC 
构建 更 自 AN a 
统计 模型 广义 线 必 






最 大 似 然 估 计 





三 芝 委 性 呐 列 










E 态 


公 作 仙 


以 外 的 概率 分 




















结合 数据 特征 ， 对 线性 模型 进行 改良 ， 促 进发 展 








层次 贝 叶 斯 模型 
摘自 《MCMC 和 层次 贝 叶 斯 模型 ”面向 数据 分 析 的 统计 建 模 入 门 站 























层次 贝 叶 斯 模型 的 公式 如 图 攻 世相 所 示 。 


f(0,4|x)= f(x| Or(0|N)p(h) 





f(x|0)x(0| Np(N) 


Treoz(elDo0Ddbd4 





层次 贝 叶 斯 模型 的 公式 














相 较 于 以 往 的 贝 叶 斯 模型 公式 ， 我 们 可 以 看 到 层次 贝 叶 斯 模型 的 先 验 





中 原文 名 为 |MCMC 上 附 屠 余 1 又 王 二 放 了 元 一 夕 解 析 D 六 峻 中 统计 于 玫 1) > 依 入 
门 |， 暂 无 中 文 版 。 译 者 注 
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分 布 中 增加 了 一 个 参数 4， 还 增加 了 一 个 新 的 分 布 p。 建 立 层次 模型 后 ， 
参数 9 的 高 维 模型 结构 变 得 更 加 复杂 ， 所 以 添加 低 维 参数 4 作为 超 参 数 ， 
添加 超 先 验 分 布 p 作为 超 参数 的 先 验 密度 ( )-。 








HalnD= /COND jo ono) 


| f(x|0)r(0L Woo0d4 
f(x|0)x(0) 
| f(x|0)x(0)d0 








构建 层次 之 前 f(0|x) = cc f(x|0)x(0) 





层次 贝 叶 斯 模型 公式 比较 





与 扩展 前 相 比 ， 扩 展 后 的 模型 可 以 将 层 分 离 为 数据 受 全 局 支配 的 规则 
层 ， 以 及 数据 受 局 部 个 别 情况 影响 的 层 ( ), 


总 体 的 全 局 参数 














小 群体 /个 体 (个体 差异 ) 的 
先 验 分 布 ， 层次 先 验 分 布 








全 局 参数 和 局 部 参数 


例如 ， 在 生态 学 的 统计 模型 中 ， 数 据 会 受到 个 体 差异 的 影响 。 如 果 把 
这 部 分 数据 分 离 到 局 部 数据 层 ， 我 们 就 能 更 加 灵活 地 构建 模型 。 另 外 ,， 现 
在 也 有 研究 人 员 根 据 地 震 仪 的 地 震 数据 ， 尝 试 使 用 层次 贝 叶 斯 模型 来 研究 
地 震 的 规模 和 地 表 任 意 一 点 的 震 度 的 相关 性 。 
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HMM 和 贝 叶 斯 网 络 





下 面 来 介绍 HMM 和 贝 叶 斯 网 络 。 








要 点 、@ 隐 马 尔 可 夫 模 型 


名 贝 叶 斯 网 络 





泌 隐 马 尔 可 夫 模 型 


向 有 限 自 动机 等 随 着 时 间 的 推移 发 生 状 态 变 化 的 规律 中 引入 马尔 可 夫 
性 ， 就 能 得 到 马尔 可 夫 过 程 或 马尔 可 夫 链 。 在 马尔 可 夫 模 型 中 ， 利 用 马尔 
可 夫 性 ， 状 态 蕊 的 概率 可 以 简化 为 PC 大, 瑟 ， 部)=PCCDPCG|) 
PC PC 0， 非常 方便 〈 国 [89 )。 


























t=0 t=1 三 汉 t=n—1 
X1 X2 X3 Xn 














状态 x 只 与 上 一 时 刻 的 状态 x, 1 有 关 = 马 尔 可 夫 性 











贝 叶 斯 定理 


P(X1,X2,X3,.%, Xn) ,| 
= P(X1)P(X2|X1)P(X3|X1, X2) *…P( Xn|X1, X2,*** , Xn-1) 
二 P(X1)P(X2|X1)P(X3|X2)…P( Xn|Xn_1) < 一 马尔 可 夫 性 的 应 























马尔 可 夫 模 型 





但 是 ， 状 态 壮 有 两 个 状态 集合 ， 一 个 是 可 以 观察 到 的 状态 集合 ， 另 一 
见 察 到 的 马尔 可 夫 链 隐 含 状态 集合 。 我 们 把 不 可 观测 的 变量 统一 


个 是 未 能 观 


当成 隐 变 量 处 理 。 
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我 们 可 以 把 状态 对 看 作 由 多 种 模式 组 成 ， 并 佑 计 每 种 模式 的 特点 ， 
还 可 以 用 概率 来 表示 各 种 模式 之 间 的 状态 转换 。 这 种 时 间 系 列 数 据 的 混 
合 分 布 预 测 模 型 就 是 隐 马 尔 可 夫 模 型 (Hidden Markov Model, HMM ) 


( BEERS ). 




















可 观察 到 的 状态 


@—@—0—® 


X1 X2 X3 





隐 马 尔 可 夫 模 型 





隐 马 尔 可 夫 模 型 中 的 维特 比 算法 ( viterbi algorithm ) 用 于 计算 模型 的 
最 优 ( 概率 最 大 ) 状态 序列 ，Baum-Welch 算法 用 于 根据 训练 数据 计算 模 
型 的 似 然 估计， 从 而 得 到 参数 的 最 大 似 然 估计 。 
维特 比 算法 是 一 种 动态 规划 算法 ， 它 根据 输出 符号 序列 来 估计 状态 序 
列 ， 可 用 于 语法 分 析 等 。 

Baum-Welch 算法 利用 EM 算法 根据 输出 符号 序列 来 估计 参数 。 该 算 
法 可 在 多 个 领域 中 使 用 ， 例 如 在 语音 识别 系统 中 可 用 来 检测 音 位 属性 ， 在 
自然 语言 处 理 中 可 用 来 估计 单词 的 词性 等 。 


起 : 


专家 系统 只 会 根据 给 定 的 条 件 提供 匹配 的 答案 ， 其 预测 规则 缺乏 灵活 
性 ， 所 以 应 用 场景 有 限 。 推 理 系统 贝 叶 斯 网 络 向 专家 系统 中 引入 了 概率 语 
法 的 概念 ， 它 是 专家 系统 的 改进 版 。 

贝 叶 斯 网 络 是 一 种 图 形 化 的 概率 模型 ， 能 够 用 于 预测 不 确定 性 现象 以 
及 根据 观测 结果 诊断 故障 。 
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贝 叶 斯 网 络 的 每 个 节点 都 表示 一 个 随机 变量 ， 这 些 随 机 变量 之 间 的 条 
件 依赖 关系 通过 一 个 有 向 无 环 图 来 表示 。 

在 贝 叶 斯 网 络 中 ， 相 邻 节 点 之 间 的 条 件 概率 用 条 件 概 率 表 表 示 ， 这 一 
点 与 隐 马 尔 可 夫 模 型 类 似 。 假 设 有 四 个 随机 变量 ， 它 们 分 别 是 “R: 下 
雨 ”“ 刺 : 强风 ””“D: 电车 晚点 ”“C: 述 到 ”。 定 义 各 节点 之 间 的 条 件 概率 
后 ， 即 可 计算 出 又 下 雨 又 刮 强风 时 述 到 的 概率 ( ); 






















































































贝 叶 斯 网 络 和 条 件 概 率 表 











但 是 ， 贝 叶 斯 网 络 也 存在 一 些 不 便 之 处 。 如 果 网 络 结构 非常 复杂 ， 条 
件 概 率 表 也 会 变 得 复杂 ; 如 果 网 络 结构 很 常见 ， 就 很 难 进行 概率 推理 ， 而 
且 可 用 的 方法 也 会 变 多 。 

如 果 是 无 环 单 连通 无 向 图 ， 就 可 以 利用 贝 叶 斯 定理 计算 出 任意 网 络 模 
型 的 后 验 概 率 。 可 如 果 有 多 个 连通 分 量 ， 概 率 计算 就 会 变 得 非常 复杂 ， 计 
算 成 本 也 会 增加 。 

为 了 提高 计算 效率 ， 目 前 人 们 想到 的 是 使 用 了 多 种 抽样 方法 的 近似 求 
解 方法 ， 比 如 事先 将 模型 转换 为 单 连通 树 状 图 ， 以 此 来 提高 计算 精度 等 。 
另外 ， 现 在 已 经 有 工具 能 够 在 包含 噪声 的 不 确定 的 情况 下 ， 根 据 传感器 的 
观测 数据 进行 诊断 和 识别 等 推理 。 










































































前 几 章 介绍 了 以 概率 分 布 函数 为 基础 的 数理 模型 和 数据 分 











布 的 分 类 识别 。 本 章 ， 笔 者 将 从 机 器 学 习 的 角度 对 这 些 内 
容 进行 介绍 。 机 器 学 习 的 常用 方法 有 无 监督 学 习 和 有 监 1 
学 习 ， 无 监督 学 习 不 使 用 标记 数据 ( 正确 答案 )， 有 监督 
学 习 使 用 标记 数据 。 接 下 来 笔者 将 对 这 两 种 方法 中 使 用 的 
算法 进行 说 明 。 
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下 面 来 介绍 无 监督 学 习 。 


要 点 、 6 聚 类 
@ K-means 算法 
包 主 成 分 分 析 








出 有 监督 学 习 和 无 监督 学 习 


无 监督 学 习 


色 奇异 值 分 解 
色 独立 成 分 分 析 
名 自 组 织 特征 映射 





























笔者 在 前 面 的 讲解 中 反复 提 及 学 习 和 标记 数据 等 术语 。 学 习 是 指 通 过 








迭代 计算 来 更 新 权重 系数 ， 使 要 求解 的 函数 逼近 基 机 数 和 数据 分 布 模型 的 
过 程 。 有 监督 学 习 基 于 标记 过 的 训练 数据 来 生成 模型 ， 而 无 监督 学 习 在 训 
练 数据 不 含有 标记 的 情况 下 生成 模型 。 在 无 监督 学 习 中 ， 聚 类 ( clustering ) 








和 数据 降 维 是 比较 常用 的 两 种 算法 。 用 图 形 表示 学 习 结果 ， 人 然后 手动 从 图 



































形 中 提取 数据 特征 ， 这 种 工作 就 称 为 数据 挖掘。 


绚 聚 类 和 有 K-means 算法 








聚 类 是 无 监督 学 习 中 比较 典 








型 的 一 种 算法 。 聚 类 算法 会 对 平面 上 的 散 





点 图 中 的 数据 进行 分 组 ,分 组 指标 是 数据 点 之 间 的 相似 度 ( )s 
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第 7 章 统计 机 器 学 习 ( 无 监督 学 习 和 有 监督 学 3 

















K-means 算法 是 一 种 常用 的 聚 类 算法 。 它 会 先 把 数据 划分 为 上 个 禾 ， 
再 把 每 个 点 随机 划分 进 相 应 的 徐 , 计算 出 每 一 个 簇 的 中 心 (通常 是 重心 )， 
然后 计算 每 个 数据 点 到 这 些 中 心 点 的 距离 ( 欧 氏 距离 等 )。 

计算 出 数据 点 到 个 中 心 点 的 距离 后 ， 选 取 距 离 最 近 的 中 心 点 所 在 的 
禾 为 该 点 所 在 的 复 。 反 复 执行 该 操作 ， 从 而 划分 出 上 个 复 ， 各 个 复 中 的 数 
据点 距离 相近 ( )。 




















设 徐 的 数目 为 £， 将 数据 点 划分 
到 距离 中 心 点 议 最 近 的 簇 中 ， 
持续 进行 操作 直到 收敛 

















K-means 算法 


天 -means 算法 的 分 类 结果 依赖 于 初始 聚 类 中 心 点 ， 所 以 会 出 现 聚 类 结 
果 错 误 、 计 算 时 间 过 长 等 问题 。 为 了 解决 这 些 问题 ， 我 们 可 以 多 次 运行 
K-means 算法 取 更 优 的 结果 ， 或 者 使 用 KK-means++ 算法 做 初始 聚 类 的 预 
处 理 ， 让 初始 聚 类 中 心 点 之 间 的 距离 尽 可 能 远 。 另 外 , 大 值 通常 是 赁 感觉 
确定 的 ， 但 其 实 它 也 可 以 通过 计算 得 出 。 

在 确定 值 时 ， 我们 可 以 使 用 狄 利克 雷 过 程 混合 模型 ( Dirichlet Process 
Mixture Model, DPMM )。 狄 利克 雷 过 程 混 合 模型 的 聚 类 算法 也 是 一 种 由 
叶 斯 方法 ， 它 利用 了 狄 利克 雷 分 布 是 多 项 式 分 布 的 共 斩 先 验 分 布 这 个 特 
性 。 多 项 分 布 描述 事件 出 现 的 随机 概率 ， 狄 利克 雷 分 布 描述 发 生 的 事件 种 
类 ， 二 者 之 间 的 关系 类 似 于 泊 松 分 布 和 指数 分 布 之 间 的 关系 。 

我 们 可 以 基于 狄 利克 雷 过 程 将 数据 点 划分 到 不 同 的 簇 中 。 这 时 ， 可 能 
会 出 现 某 个 数据 点 被 划分 到 离 它 最 近 的 中 心 点 所 在 的 簇 中 这 一 情况 。 使 用 
EM 算法 等 方法 反复 进行 基于 狄 利克 雷 过 程 混合 模型 的 数据 分 配 ， 我 们 就 
可 以 观察 聚 类 的 个 数 以 及 各 个 聚 类 中 数据 的 分 布 情况 茵 EE 琴 | )。 







































































随机 变量 = 数据 种 类 随机 变量 = 数据 





多 项 分 布 和 狄 利克 雷 分 布 的 关系 


强 主 成 分 分 析 

和 聚 类 算法 一 样 ， 主 成 分 分 析 (Principal Component Analysis，PCA ) 
也 是 一 种 常用 的 算法 ， 它 能 够 用 来 降低 数据 维度 。 

例如 ， 当 我 们 和 希望 根据 棒球 选手 的 身高 、 体 重 、 击 球 率 和 参加 比赛 的 
RE OO id la 

这 时 可 以 进行 主 成 分 分 析 ， 于 是 我 们 会 得 到 汇总 了 多 个 自 变量 的 坐标 

由 横 轴 和 纵 轴 分 别称 为 第 一 主 成 分 和 第 二 主 成 分 ， 主 成 分 分 析 就 是 构建 
由 多 个 主 成 分 组 成 的 直角 坐标 系 ( 茵 地 | )。 









































通过 主 成 分 分 析 ， 确 定 贡 对 第 一 主 成 分 和 第 二 主 成 分 的 
献 率 最 高 的 第 一 主 成 分 和  ” 华 标 轴 进 行 旋转 ， 在 新 的 散 点 
第 二 主 成 分 图 上 确认 类 簇 





























主 成 分 分 析 的 示例 





这 里 得 到 的 第 一 主 成 分 和 第 二 主 成 分 等 向 量 的 方向 称 为 特征 向 量 ， 各 
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主 成 分 的 贡献 率 是 根据 计算 时 得 到 的 特征 值 来 确定 的 。 
特征 值 在 物理 学 中 表示 能 量 的 大 小 ， 在 主 成 分 分 析 中 表示 各 主 成 分 的 
方差 大 小 。 贡 献 率 最 大 的 是 第 一 主 成 分 ， 其 次 是 第 二 主 成 分 ， 依 次 类 推 。 
提取 主 成 分 的 时 候 ， 可 以 按照 贡献 率 由 高 到 低 的 顺序 提取 贡献 率 高 的 
主 成 分 ， 也 可 以 将 特征 值 大 于 1 作为 纳入 标准 ， 进 行 数据 降 维 ( 医 EW )。 











降 维 到 二 维 数据 














保持 数据 特征 不 变 












































降 维 到 三 维 数据 








降 维 


通过 主 成 分 分 析 得 到 的 主 成 分 是 各 个 原始 变量 的 线性 组 合 ， 所 以 我 们 
可 以 根据 主 成 分 重建 原始 数据 。 也 就 是 说 ， 只 选取 贡献 率 高 的 数据 特征 来 
重建 原始 数据 ， 这 样 既 不 会 损失 原始 数据 的 特征 ， 又 可 以 压缩 数据 的 大 
小 ， 还 可 以 提取 峰值 等 拥有 局 部 特征 的 部 分 ( 国 E )。 
















































































多 维 数据 














利用 主 成 分 分 析 重 建 原始 数据 
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除 主 成 分 分 析 以 外 ，t-SNE (tdistributed Stochastic Neighbor Embedding， 
tf- 分 布 随机 邻 域 腻 入 ) 算法 也 是 一 种 对 多 维 数据 进行 降 维 的 方法 。t-SNE 
算法 将 多 维 数据 之 间 的 距离 转换 为 服从 正 态 分 布 的 概率 ， 当 我 们 把 数据 映 
射 到 低 维 空间 后 ， 数 据 分 布 趋 近 于 自由 度 为 1 的 1 分 布 。 

与 正 态 分 布 相 比 , t 分 布 具 有 长 尾 特性 ， 所 以 在 将 多 维 空间 的 数据 映 
射 到 低 维 空间 时 ， 附 近 的 点 能 够 映射 到 附近 的 点 ， 远 处 的 点 能 映射 到 更 远 
处 的 点 。 它 的 聚 类 效果 要 比 主 成 分 分 析 的 好 ( 轿 芭 2 )。 












































度 为 1 的 上 分 布 
附近 的 点 映射 到 
附近 的 点 























远 处 的 点 映射 到 
更 远 处 的 点 








t-SNE 
摘自 株式 会 社 ALBERT《 使 用 1-SNE 算法 进行 降 维 的 方法 》” 附 图 


在 进行 主 成 分 分 析 时 ,通过 用 和 矩阵 表示 数据 ， 计 算 协 方差 矩阵 ， 我 们 
可 以 得 到 特征 值 和 特征 向 量 。 主 成 分 分 析 完 全 等 价 于 数据 矩阵 的 奇异 值 分 
解 (Singular Value Decomposition，SVD )。 
由 于 主 成 分 分 析 中 会 对 数据 敌阵 进行 特征 值 分 解 ， 所 以 数据 矩阵 必须 
是 一 个 行 数 和 列 数 相等 的 方 阵 ， 但 奇异 值 分 解 中 不 要 求 数据 矩阵 必须 是 方 
阵 。 从 这 一 点 来 说 ， 奇 异 值 分 解 更 简便 一 些 。 
假设 用 是 一 个 mxn 阶 和 矩阵 ， 存 在 一 个 分 解 使 M=UZV"， 其 中 U 是 



















































































中 原文 名 为 『t-SNE 艳 用 大 次 元 压缩 方法 二 绍 介 ]， 暂 无 中 文 版 。 一 一 译 者 注 
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m 阶 酉 和 矩阵 ( 参照 国有 )，WV 是 阶 伴随 矩阵 ( 参照 加 RE 和 ), 本 是 对 角 


线 元 素 为 0,…, o(01 宇 0, 宇 … 宇 0 > 0)(q 三 min(m, nn)) 的 对 角 和 矩阵 ， 这 种 分 
解 就 称 为 M 的 奇异 值 分 解 。 对 角 线 元 素 o 称 为 M 的 奇异 值 (EE )。 


M U 人 (m 行 n 列 ) 


三 
n m oa O 
03 
m [==] 
[| O 





奇异 值 分 解 


3 百 算 阵 9 人 了 矩阵 






























































丁 和 矩阵 ( 正 交 矩阵 ) 的 道 和 矩阵 是 它 伴随 矩阵 二 是 酉 矩阵 4 的 
的 伴随 矩阵， 特征 值 的 绝对 值 、 奇 异 值 共 罗 转 置 矩 阵 。 





以 及 行列 式 的 绝对 值 均 为 1。 


奇异 值 分 解除 了 可 以 代替 主 成 分 分 析 使 用 ， 还 可 以 用 来 计算 伪 逆 矩 
阵 。 伪 逆 和 矩阵 可 以 用 来 求解 最 小 二 乘法。 


才 独立 成 分 分 析 

















除了 使 用 主 成 分 分 析 和 奇异 值 分 解 进行 白化 和 降 维 ， 我 们 还 可 以 使 用 














独立 成 分 分 析 (Independent Composition Analysis，ICA )， 它 的 作用 是 令 
观测 数据 中 各 个 成 分 的 统计 独立 性 最 大 化 。 

声 源 数据 等 信号 中 的 噪声 主要 包括 概率 密度 函数 服从 高 斯 分 布 的 高 基 
噪声 和 白 品 声 ， 所 以 在 测量 独立 性 时 要 计算 非 高 斯 性 。 

独立 成 分 分 析 可 用 于 盲 源 信号 分 离 。 盲 源 信号 分 离 是 指 从 若干 观测 
到 的 混合 信号 中 分 离 并 恢复 未 知 源 信号 。 例 如 ， 对 安装 在 多 个 不 同位 置 的 
话 简 所 接收 到 的 、 由 多 个 源 信号 组 成 的 声 源 数据 中 混杂 的 语音 和 噪声 进行 
分 离 。 
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壤 自 组 织 特征 映射 


神经 网 络 对 数据 进行 无 监督 学 习 的 聚 类 称 为 自 组 织 特征 映射 (Self 
Organization Map，SOM )。 神 经 网 络 能 够 通过 自动 寻找 输入 数据 中 的 内 在 
规律 和 本 质 属性 ， 自 组 织 、 自 适应 地 改变 网 络 参数 与 结构 。 

神经 网 络 在 得 到 一 个 输入 向 量 时 ,会 计算 它 到 各 类 别 的 代表 向 量 的 中 
离 ， 然 后 将 它 分 类 到 距离 最 短 的 类 别 中 ， 同 时 根据 新 的 输入 向 量 更 新 该 类 
别 的 代表 向 量 。 

重复 上 述 学 习 过 程 能 够 使 具有 相似 特性 的 输入 向 量 聚 集 在 一 起 ， 实 现 
聚 类 的 可 视 化 。 自 组 织 特 征 映射 可 以 基于 一 维 、 二 维 或 三 维 的 神经 元 网 
络 。 如 果 输 入 向 量 是 某 种 形式 的 空间 向 量 ， 这 时 自 组 织 特征 映射 也 可 以 称 
为 神经 网 络 的 空间 映射 。( 四 于 | )。 


















































组 织 特征 映射 显示 
据 时 ， 我 们 可 以 看 到 
的 波形 会 聚集 在 一 起 。 

可 以 用 点 来 表示 ， 也 可 


这 样 的 六 边 形 来 表示 。 



























































自 组 织 特征 映射 的 示例 


| 统计 机 器 学 习 ( 无 监督 学 习 和 有 上 监督 学 习 ) 





有 监督 学 习 





下 面 来 介绍 有 监督 学 习 。 






























































要 点 、 6 支持 向 量 机 @ 合理 性 检验 
名 贝 叶 斯 过 滤器 . 名 判别 模型 的 评估 和 
朴素 贝 叶 斯 分 类 器 ROC 曲线 
色 ID3 算法 ( 构建 决策 树 ) ””@ ROC 曲线 的 评估 方法 
包 随机 森林 @ hold-out 检验 和 交叉 检验 


DIEEE 

支持 向 量 机 (Support Vector Machine，SVM ) 是 为 数据 分 布 确定 一 个 
分 类 边界 的 方法 。 回 归 分 析 使 用 直线 或 曲线 来 拟 合 数据 点 ， 而 支持 向 量 机 
可 以 用 于 模式 识别 中 的 数据 分 类 。 它 与 使 用 多 层 感 知 器 等 神经 网 络 进行 的 
数据 分 类 相似 (0 )- 














O 
汉民 O O 支持 向 量 机 
ex O 
~ ee 
De SR 间隔 
国 号 we 
是 4- 间隔 区 间 
® ® 
下 g 别 函数 








支持 向 量 机 














支持 向 量 机 的 目的 是 寻找 一 个 超 平面 来 对 样本 进行 分 割 ， 其 原则 是 使 
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正 例 和 反例 之 间 的 距离 最 大 。 这 个 距离 称 为 间隔 ( margin )， 求 解 判别 函 
数 就 是 最 大 化 分 类 间隔 。 ee 
支持 向 量 机 不 仅 可 以 求解 线性 判别 函数 ， 还 能 通过 使 用 核 技巧 (kernel 
trick ) 来 求解 非 线 性 判别 函数 。 

我 们 来 看 一 下 线性 判别 函数 ， 它 比较 简单 。 能 够 使 间隔 最 大 化 的 线性 
判别 函数 不 仅 能 将 所 有 的 训练 数据 准确 分 开 ( 训练 错 分 率 为 0 )， 还 能 将 
训练 数据 与 判别 函数 等 于 0 的 超 平面 之 间 的 最 短 距 离 最 大 化 。 我 们 可 以 使 
用 拉 格 朗 日 的 伪 非 定常 法 (pseudo-unsteady methods ) 来 求解 这 个 最 优化 
问题 ， 可 以 推导 出 判别 函数 只 依赖 于 支持 向 量 。 

判别 函数 中 只 包含 输入 数据 的 内 积 的 线性 组 合 ， 由 此 人 们 提出 了 一 种 
建立 非 线性 判别 函数 的 方法 ， 即 使 用 核 函 数 将 输入 空间 内 线性 不 可 分 的 数 
据 映 射 到 一 个 线性 可 分 的 空间 。 该 方法 称 为 核 技 巧 ， 核 函数 可 以 使 用 多 项 
eg 数 。 这 种 方法 也 可 以 用 于 主 成 分 分 析 和 聚 类 ， 统 称 为 
核 方法 ( 加 加 3 )- 













































































线性 判别 函数 


f(x)=w'ix+t+b 一 人 标 函 数 Iwll=1 


限制 条 件 Oo +b) 之 1 























与 超 平面 之 间 的 距离 


T 




















拉 格 朗 日 的 伪 非 定 




















| 、 
i ji nl bl 常 法 


wll 


. 时 
min|w x,+bl|=1 * * 
i | i | f(x)=w x—w x,+y, 


简化 条 件 WW 





线性 判别 函数 及 其 最 优化 

















在 实际 应 用 中 ， 很 少 出 现 能 将 数据 完全 准确 分 开 的 情况 ， 所 以 我 们 需 
要 为 误 分 类 的 数据 设置 惩罚 项 。 在 支持 向 量 机 中 加 入 惩罚 项 的 最 优化 方法 
称 为 软 间隔 最 大 化 。 So 数 呈 匀 链 形状 ， 因 此 它 又 称 为 贸 
链 函 数 或 绞 链 损失 函 加) 
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时 贝 叶 斯 过 滤器 朴素 贝 叶 斯 分 类 器 




















贝 叶 斯 定理 特别 适用 于 网 络 学 习 。 基 于 贝 叶 斯 定理 的 有 监督 学 习 算 法 
中 包含 了 贝 叶 斯 过 滤器 ， 其 中 最 有 名 的 当 属 朴素 贝 叶 斯 分 类 需 。 

贝 叶 斯 过 滤 带 在 垃圾 邮件 的 判定 方面 非常 有 名 。 提 取 邮 件 内 的 单词 ， 如 果 这 
些 单词 包含 在 我 们 预先 建立 的 字典 中 ， 则 判定 该 邮件 为 垃圾 邮件 。 在 此 基础 上 引 
入 概率 就 能 得 到 贝 叶 斯 过 滤器 。 贝 叶 斯 过 滤器 还 能 用 于 文档 分 类 ( ) 
























































CY 






























































朴素 贝 叶 其 
































贝 叶 斯 过 滤器 


如 果 用 筷 = {0, 1} 来 表示 单词 ;在 文档 中 是 否 出 现 ， 其 中 出 现 为 1， 未 出 
现 为 0， 该 单词 包含 在 文档 的 类 别 c 中 的 联合 概率 就 会 如 国 世 呈 加 所 示 。 


p(x, O)= p(x|O)p(C)= plc| Op(x) 


单词 包含 在 各 类 别 中 的 联合 概率 公式 
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假设 训练 集 的 文档 数 为 m， 各 个 类 别 中 的 文档 数 为 freq(c)， 则 训练 集 
中 < 类 别 文档 出 现 的 类 别 概率 P(c) 如 国 世 呈 国 所 示 。 


p(O = ea) 
m 


类 别 概率 公式 


由 此 可 以 推测 单词 在 各 个 类 别 中 的 出 现 概率 ， 具 体 如 医 珊 站 所 示 。 


freq(x =1, label = c) 
freq(c) 





p(x;=1|c)= 


单词 在 各 个 类 别 中 的 出 现 概率 


除 此 以 外 ，PolyPhen-2 程序 也 使 用 了 朴素 贝 叶 斯 分 类 器 进行 判定 。 
PolyPhen-2 程序 用 于 计算 构成 蛋白 质 的 氨基 酸 序列 在 基因 突变 等 情况 下 发 
生 改 变 后 会 造成 多 大 的 影响 。 该 程序 基于 过 去 发 表 过 的 病原 体 蛋 白质 的 氮 
基 酸 变化 信息 ， 调 查 氨 基 酸 哪里 发 生 了 变化 。 除 了 判定 与 病原 体 蛋 白质 一 
致 的 氨基 酸 组 成 ， 程 序 还 能 对 相关 数据 进行 分 析 ， 输 出 多 项 内 容 ， 比 如 曾 
经 发 表 过 的 氨基 酸 变 化 和 该 变化 与 疾病 之 间 的 关系 ， 以 及 对 蛋白质 功 能 的 
影响 程度 等 ( 国 辣 )。 

















朴素 贝 叶 斯 分 类 器 



























































生 的 影 
响 程度 











EE PolyPhen-2 
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ID3 算法 是 一 种 使 用 标记 的 训练 数据 构建 决策 树 的 方法 。ID3 算法 会 


在 一 棵 空 的 决策 树 上 不 断 添加 节点 ， 直 到 该 








决策 树 能 正确 分 类 所 有 数据 。 

















最 终 得 到 的 决策 树 可 能 有 很 多 种 。 考 虑 到 分 类 效率 和 通用 性 ， 得 到 的 决策 


树 应 尽 可 能 简单 〈 )。 


= 


4 
ma》 


构建 决策 树 


马 用 1D3 算法 构建 决策 树 





使 用 ID3 算法 构建 决策 树 的 步骤 如 下 所 示 。 


。 如 果 样本 集 4 中 的 全 部 数据 属于 同一 
该 类 别 相应 的 节点 ,决策 树 构 建 完成 











类 别 ( 如 正 例 、 负 例 )， 创 建 


。 从 样本 集 4 中 选择 一 个 属性 (属性 8)， 生 成 判断 节点 


。 根据 属性 8 的 属性 值 划 分 样本 集 4， 








E 成 相应 的 子 节 点 





。 对 于 每 个 子 节点 ， 分 别 按照 上 述 过 程 进行 递归 分 类 


在 ID3 算法 中 ,属性 的 选择 标准 是 使 信息 粹 最 小 化 ， 也 就 是 使 同一 个 


























类 别 中 的 数据 对 象 尽 可 能 相似 。 可 以 使 用 信息 量 的 期 望 值 ( -2pilogypi, i 
是 属性 或 类 别 可 以 取 的 值 )， 计 算 样本 集 4 的 各 个 类 别 及 属性 ， 寻 找 信 息 
炉 最 小 的 属性 作为 此 节点 的 扩展 属性 。 决 策 树 是 一 种 分 而 治之 ( divide and 




















conquer ) 的 决策 过 程 ， 它 会 为 了 整体 最 优化 而 将 样本 集 划 分 为 多 个 子 集 进 





行 迭 代 优 化 。 
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在 构建 决策 树 的 过 程 中 ， 将 决策 树 与 数据 分 布 重合 起 来 就 可 以 看 到 决 





策 树 节点 的 分 类 边界 ， 具 体 如 茵 BW 硬 日 所 示 。 














决策 树 的 状态 ( 分 类 树 ) 


和 支持 问 量 机 一 样 ， 随 机 和 森林 也 是 一 种 对 数据 进行 分 类 的 方法 。 它 从 
原始 数据 中 随机 抽取 数据 构建 多 个 决策 树 ， 这 些 决策 树 的 结构 各 不 相同 。 
最 后 从 中 选取 具有 代表 性 的 决策 树 模型 ( 图 世 EX )。 



































… 构建 多 个 决策 树 


选取 拟 合 最 优 的 模型 作为 代表 ”全 类 生字 多 数 决 原则 
回归 树 坊 平均 信 








随机 森林 








于 
k 
| 
js 
一 
Cn 
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杰 合理 性 检验 














模型 构建 完成 后 ， 我 们 需要 客观 地 衡量 模型 的 准确 率 ， 也 就 是 需要 进 
行 合 理性 检验 。 

















村 判别 模型 的 评估 和 ROC 曲线 








判别 模型 构建 完成 后 ， 我 们 可 以 通过 绘制 ROC 曲线 ( Receiver Operating 
Characteristic curve ) 来 评估 模型 的 性 能 。 

ROC 曲线 的 概念 源 于 第 二 次 世界 大 战 期 间 美国 的 雷达 研究 ， 最 初 用 
于 根据 接收 到 的 雷达 信和 号 识别 敌 机 。ROC 曲线 也 叫 受 试 者 工作 特性 曲线 
或 接收 者 操作 特性 曲线 。 

我 们 需要 一 组 正确 的 数据 ( 正 例 、 负 例 ) 和 识别 结果 来 绘制 ROC 曲 
线 。 然 后 以 此 构建 一 个 混 清和 矩阵 (confusion matrix ) 进行 评价 。 方 便 起 
见 ， 我 们 假设 有 两 种 识别 结果 ， 由 此 可 以 得 到 一 个 2x2 的 混淆 矩阵 ( 交 
又 表 ) (EBDSI ). 
混淆 和 矩阵 


| | 识别 结果 阳性 (+) 识别 结果 阴性 ( - ) 


(TP/(TP+FN) 仿 真 阳 性 率 = 













































































正 例 FN 
灵敏 度 ) le TP+FN 
人 
(TP/(TP+TN ) 之 召回 率 ) 
TN 
负 例 FP 汪汪 本 
( - ) (EP/(FP+TP ) 瀛 假 阳 性 率 ) (NNT 性 率 = 。 FP+TN 
特异 度 ) 
Su FN+TN TP+FN+FP+TN 








混淆 矩阵 表 中 包括 真 阳性 TP (Tue Positive )、 假 阴性 FN (False Nagative )、 
假 阳 性 FP ( False Positive ) 和 真 阴性 TN (True Negative ) 四 项 。TP 占 所 
有 阳性 识别 结果 的 比例 称 为 准确 率 (或 阳性 预测 值 )，FP 占 所 有 阳性 识别 
结果 的 比例 称 为 假 阳 性 率 ，TN 占 所 有 阴性 识别 结果 的 比例 称 为 真 阴性 率 
或 特异 度 ，FN 占 所 有 正 例 的 比例 称 为 假 阴 性 率 ，TP 占 所 有 正 例 的 比例 称 
为 真 阳性 率 或 灵敏 度 。 
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另外 ,我们 可 以 计算 正确 的 识别 结果 占 所 有 识别 结果 的 比例 来 得 到 正 
确 率 ， 也 可 以 通过 正 例 中 正确 的 识别 结果 所 占 比例 得 到 召回 率 。 由 于 准确 率 
和 召回 率 相 互 制约 ， 所 以 我 们 通常 选取 二 者 的 调和 平均 值 f 值 (FF measure ) 
作为 一 个 综合 的 衡量 指标 (图 EC )。 






































TP 
(TP+FN) 


(sensitivity) = 





深 (precision) = 











T 
(TP +FP) 


次 (recall) = 1E 
(TP+TN) 














FP 
(FP+TN) 
(Precision x Recall) 


特异 度 (specificity) =1 





五 值 (FF measure)=2x 





(Precision + Recall) 





根据 混淆 矩阵 计算 各 种 指标 的 公式 


我 们 可 以 绘制 国 @B 玉 那样 的 ROC 曲线 。 把 识别 结果 和 正确 结果 按照 
识别 结果 得 分 由 大 到 小 的 顺序 排列 ， 并 设置 阔 值 。 假 设 阔 值 以 上 是 阳性 ， 
以 下 是 阴性 ， 这 时 我 们 可 以 构建 混 消 和 矩阵， 计算 真 阳 性 率 和 假 阳 性 率 。 不 
断 改 变 姜 值 就 能 得 到 一 条 ROC 曲线 。 

















识别 结果 如 果 是 分 
数 等 数值 ， 就 会 被 
自动 分 类 。 构 建 混 
浠 矩阵， 不 断 改变 
阅 值 来 计算 真 阳性 
率 和 假 阳 性 率 。 
































阳性 率 
( 灵敏 度 ) 












































0 
假 阳 性 率 ( 1- 特 








绘制 ROC 曲线 
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各 ROC 曲线 的 评估 方法 
ROC 曲线 主要 有 以 下 三 种 评估 方法 








Dy 
4 
Mu 
区 
~ 
~ 


习 (无 监督 学 习 和 有 监督 学 5 





( EE )- 


e AUC ( Area Under Curve， 曲 线 下 面积 ) 值 
AUC 值 是 指 ROC 曲线 下 面 的 面积 。AUC 值 在 0.9 以 上 表明 分 类 准 
确 率 (accuracy ) 较 高 。 在 比较 多 个 模型 时 ， 可 以 使 用 AUC 值 作为 














评估 标准。 

。 有 曲线 与 左上 角 的 垂直 距离 
AUC 值 越 高 ，ROC 曲线 越 “ 凸 ” 
距离 a 越 小 ， 模 型 性 能 就 越 好 。 
对 应 模型 的 最 优 参数 ( 相当 于 绘 








向 左上 角 ， 所 以 曲线 到 左上 角 的 
由 此 我 们 可 以 推测 ，a 最 小 的 位 置 











册 曲 线 时 的 立 值 )。 


e 正确 指数 (youden index， 又 称 约 登 指数 ) 
AUC 值 为 0.5 时 ， 相 应 的 模型 分 类 效果 最 差 ， 此 时 得 到 一 条 45” 对 
角 线 。 用 对 角 线 上 距离 曲线 最 远 的 距离 5 所 对 应 的 位 置 的 真 阳性 率 


减 去 假 阳性 率 ( 敏感 度 + 特异 度 
模型 的 最 优 参数 。 





真 阳性 率 
( 敏感 度 ) 


假 阳 性 率 ( 1 


ROC 曲线 





-1 )， 可 以 推断 出 这 个 值 对 应 的 是 





一 特异 度 ) 
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对 hold-out 检验 和 交叉 检验 




















除了 使 用 ROC 曲线 ， 我 们 还 可 以 通过 分 割 原始 数据 集 来 检验 训练 模 
型 的 识别 准确 率 。 原 始 数据 集 可 以 分 割 为 训练 集 和 测试 集 ， 训 练 集 包 括 训 
练 时 使 用 的 标记 数据 或 训练 数据 ， 测 试 集 包括 在 评估 训练 过 的 模型 时 使 用 
的 测试 数据 。 分 割 数据 集 可 以 避免 过 拟 合 。 


这 与 随机 森林 中 随机 抽取 数据 ， 构 建 多 个 决策 树 的 过 程 一 样 。 
检验 方法 如 下 所 示 〈 医 世 2 区 )。 


e hold-out 检验 (holdout method ) 
将 原始 数据 集 分 为 训练 集 和 测试 集 两 部 分 。 首 先 使 用 训练 集训 练 模型 ， 
然后 利用 测试 集 检验 模型 的 效果 。hold-out 检验 不 算 交 叉 检 验 。 

eK 折 交 又 检验 (K-fold cross-validation ) 
将 原始 数据 分 为 K 份 ， 将 其 中 一 份 作为 测试 集 检验 模型 ， 其 他 的 
玉 -1 份 作为 训练 集 进行 训练 。 取 天 次 校 验 结果 的 平均 值 或 标准 差 ， 
以 此 来 评估 模型 。K 值 通常 设置 为 5 一 10。 

e LOOCV (Leave-One-Out Cross-Validation ) 
LOOCV 是 玉 折 交叉 检验 中 天 与 原始 数据 集中 的 样本 数 相等 的 情况 ， 
即 每 个 样本 单独 作为 测试 集 的 情况 。LOOCYV 可 在 数据 量 较 少 的 情 
况 下 使 用 。 































































































hold-out 检验 K i pe 


二 测试 数据 


训练 数据 测试 数据 训练 数据 
将 数据 依次 设置 为 测试 集 





检验 方法 





化 学 习 和 分 丰 式 
四 人 工 和 能 


基于 统计 机 器 学 习 的 分 类 器 能 够 根据 输入 的 数据 来 修改 和 
优化 权重 , 从 而 提高 人 工 智能 程序 的 分 类 性 能 和 识别 性 能 。 
为 了 进一步 提高 人 工 智能 程序 的 性 能 ， 我 们 可 以 采用 集成 
学 习 ( ensemble learning )、 强 化 学 习 和 迁移 学 习 ( transfer 
learning ) 等 方法 。 集 成 学 习 是 通过 构建 多 个 分 类 器 来 完 
成 学 习 任 务 的 ， 而 在 强化 学 习 和 迁移 学 习 的 情况 下 ， 程 序 
在 与 外 界 环境 的 交互 过 程 中 会 接收 环境 反馈 进行 自主 学 
习 。 本 章 ， 笔 者 将 对 这 些 内 容 进 行 介绍 。 
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下 面 来 介绍 集成 学 习 。 








要 ~ 和 伯 成 学 习 
© Bagging 
© Boosting 





济 集成 学 习 

在 使 用 基于 统计 机 器 学 习 方 法 构建 的 学 习 器 和 分 类 器 进行 分 类 或 识别 
时 ， 为 了 提高 单个 分 类 器 的 性 能 ， 在 构建 分 类 器 模型 时 ， 要 尽量 减少 分 类 
恬 的 数量 。 

之 所 以 这 么 做 ， 是 因为 结构 简单 才 有 助 于 人 类 更 好 地 理解 分 类 器 的 动 
作 。 换 句 话说， 人 类 很 难 预测 结构 复杂 的 分 类 器 的 动作 。 可 如 果 简 单 的 分 
类 顺 无 法 达到 很 好 的 效果 ， 我 们 就 需要 使 用 集成 学 习 了 。 

集成 学 习 通 过 构建 并 结合 多 个 分 类 器 来 完成 学 习 任 务 ， 以 此 提高 模型 
的 泛 化 能 力 ( 参照 [0 于)。 


二 了 9 泛 化 能 力 
泛 化 能 力 是 指 模 型 能 够 处 理 更 多 未 
知 问题 的 能 力 。 如 果 泛 化 能 力 差 ， 就 容 
易 出 现 过 拟 合 现象。 


Bagging 是 集成 学 习 的 方法 之 一 ( 医 EE 各 )， 它 利用 自助 法 ( bootstrapping ) 
(人 参照 & 避 史上 晶 ) 在 训练 集中 进行 m 次 有 放 回 的 随机 抽样 ， 共 进行 B 轮 ， 这 
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样 就 能 得 到 8 个 训练 集 ， 每 个 训练 集中 包含 m 个 样本 。 

每 次 使 用 一 个 训练 集会 得 到 一 个 弱 分 类 咒 h， 把 这 些 弱 分 类 器 结合 起 
来 就 会 构成 最 终 的 分 类 器 互 。 针 对 识别 和 判定 问题 ， 妃 会 选择 最 优 弱 分 类 
器 的 结果 ; 针对 回归 问题 ， 矿 会 计算 h 的 平均 值 作为 最 终结 

































































Ei|] Bagging 


了 了 9 自助 法 和 找 狐 法 
自助 法 又 称 自助 抽样 法 ， 它 是 一 种 重 采样 方法 ， 通 过 数据 采样 来 生成 一 系列 
伪 样 本 ， 可 用 来 估计 统计 量 的 偏差 及 方差 。 自 助 法 并 不 是 指 我 们 使 用 某 种 编程 语 
言 来 构建 该 编程 语言 的 编译 器 ， 也 不 是 指 在 操作 系统 启动 的 过 程 中 使 用 的 启动 。 
拔 识 法 ( bootstrap ) 源 自 19 世纪 一 则 神话 故事 中 的 短语 pull oneself up by 
one' s bootstrap。 该 短语 的 字面 意思 是 “ 搜 着 鞋 带 把 自己 拉 起 来 "， 比 喻 违背 常理 
的 事情 。 到 了 20 世纪 ， 这 句 话 又 被 赋予 了 “不 需要 他 人 的 帮助 ， 凭 借 自身 的 努力 
和 能 力 完 成 任务 ”的 意思 。 
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蕊 与 随机 森林 的 差异 

随机 森林 会 生成 大 量 的 决策 树 并 综合 这 些 决 策 树 的 结果 进行 最 优 分 
类 。 随 机 森林 和 Bagging 一 样 是 从 数据 集中 随机 抽取 一 小 部 分 训练 集 来 进 
行 训 练 的 。 二 者 的 区 别 在 于 Bagging 会 使 用 训练 集中 所 有 的 自 变 量 ， 而 随 
机 森林 中 的 自 变量 是 随机 抽取 的 。 
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Bagging 会 同时 构造 多 个 弱 分 类 器 无 差别 进行 组 合 ， 而 Boosting 会 通 
过 迭 代 优 化 的 方式 选择 弱 分 类 器 〈 )。Boosting 对 于 需要 识别 的 数据 
集 和 其 他 数据 集 ， 会 通过 迭代 选择 弱 分 类 器 来 得 到 识别 正确 率 较 高 的 强 分 
类 器 。 具 有 代表 性 的 算法 是 AdaBoost。 


ED) BH > Ml 


需要 识别 的 数据 ( 正 例 、 负 例 ) ”标记 数据 





























加 


针对 数据 集 找到 最 优 弱 分 类 器 





Boosting 


HH AdaBoost 

AdaBoost 是 一 种 针对 二 元 分 类 问题 构建 弱 分 类 器 的 算法 。 

对 于 给 定 的 训练 集 (X, 妨 ， 车 对 和 了 分 别 对 应 于 已 标记 的 正 例 样本 和 
负 例 样本 ， 则 xz pp, xz EX ye 了 ={ 一 1, 1}。 首 先 使 用 自助 法 等 
方法 构建 多 个 弱 分 类 器 。 

接 下 来 按照 训练 样本 的 概率 分 布 D((i) (i=1, …, m ) 选择 弱 分 类 
器 。 初 始 化 样本 权重 为 D1,=1/m， 按 照 1=1, …, 7 开始 迭代 。 壕 代步 骤 如 
下 所 示 。 


。 对 于 构建 的 多 个 弱 分 类 器 ， 计 算 弱 分 类 器 的 误差 率 ， 然 后 选择 最 小 
的 弱 分 类 器 
se > DO) 


Eh (xi )# yi; 
。 如 果 有 2 > 0.5， 则 结束 欠 代 
。 计算 的 权重 系数 
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“jn | 
2 1 
。 更 新 样本 权重 


D, (7) exp(—0,y;h, (x )) 
2 





DG) = 

误差 率 表 示弱 分 类 器 的 分 类 精度 。 如 果 误 差 率 大 于 0.5， 就 说 明 分 类 
精度 比 胡 乱 猜 测 的 准确 率 还 要 低 ， 此 时 需要 立刻 停止 弱 分 类 器 的 构建 。 

在 根据 误差 率 计算 样本 的 权重 系数 ， 更 新 样本 权重 D 时 ， 要 对 分 类 
正确 的 样本 降低 权重 ， 对 分 类 错误 的 样本 增加 权重 ( 因为 h(x))={-1, 1}， 
y={ 一 1, 1} )。 这 样 ， 我 们 就 能 从 第 一 个 弱 分 类 器 开始 ， 逐 渐 构 建 出 针对 简 
单 特征 的 分 类 器 以 及 针对 复杂 特征 的 分 类 器 。Z, 的 作用 是 使 更 新 后 的 权重 
的 合计 值 为 1。 

经 过 了 次 循环 后 得 到 了 个 弱 分 类 器 ， 把 这 了 个 弱 分 类 器 按 权重 系数 
相应 的 样本 权重 又 加 起 来 ， 就 可 以 得 到 强 分 类 器 五 ( 国 呈 到 、 回 辐 到 )- 


H(x) =sign(2 ,oh (x)) 


强 分 类 器 万 的 公式 



































个 X、7 的 组 合 ， 初 始 的 样本 权重 为 D = 1/m 





选择 误差 率 s 最 i 
小 的 弱 分 类 器 - 四 根据 7 个 弱 分 类 器 / 构 
建 强 分 类 器 及 


be 


rE 
区 | a 
ee ED, ,并 更 新 样本 权重 HGD = sien(2 aehi lo) 





























AdaBoost 算法 
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AdaBoost 既 可 以 用 于 二 元 分 类 问题 ， 也 可 以 用 于 多 元 分 类 问题 。 男 
外 ， 把 强 分 类 融 五 的 公式 中 的 之 (-Q@h(x;)) 作 为 损失 函数 ， 对 AdaBoost 进 
行 通用 扩展 后 还 能 得 到 MadaBoost 和 U-Boost 等 算法 。 

















下 面 来 介绍 强化 学 习 。 

















要 点 、@ 强化 学 习 理论 色 随机 系统 
@ 回报 和 价值 函数 色 贝尔 曼 方 程 
@@ 0 学 习 


汤 强化 学 习 理 论 








人 在 刚 出 生 的 时 候 ， 大 脑 中 并 不 会 有 关于 这 个 世界 的 全 部 信息 。 人 类 
是 在 成 长 的 过 程 中 ， 通 过 与 外 界 环境 的 交互 来 获取 经 验 进行 学 习 的 。 

















机 器 也 是 如 此 。 类 脑 计算 机 就 是 通过 与 环境 的 交互 作用 来 实现 自主 学 
习 的 系统 。 

然而 实际 上 ， 机 器 只 是 参照 人 类 基于 知识 库 、 规 则 以 及 统计 模型 等 构 
建 的 分 类 器 来 代 禁 人 类 作出 判断 。 让 机 器 在 未 知 的 学 习 环 境 中 能 像 人 类 那 
样 自主 改变 分 类 顺 的 机 制 叫 作 强化 学 习 。 

强化 学 习 理 论 ( reinforcement learning theory ) 把 通过 反复 试 错 获 得 
回报 的 学 习 模 式 用 数学 模型 表示 了 出 来 。 它 基于 心理 学 上 的 操作 性 条 件 
反射 (参照 I 是 )， 其 名 字源 于 自主 行为 发 生 频 率 增强 的 现象 一 一 强化 


( reinforcement )。 






































| “小 贴 十 心理 学 上 的 操作 性 条 件 反射 
心理 学 家 认为 ，( 生物 体 ) 通过 自发 的 反复 试 错 行为 所 获得 的 回报 会 让 其 做 出 
相应 的 行为 。 有 一 个 使 用 了 斯 金 纳 箱 的 实验 比较 有 名 。 斯 金 纳 箱 是 一 个 按 下 盒子 
上 的 按钮 就 会 出 现 食物 的 实验 装置 ， 鸽 子 等 动物 通过 获得 食物 这 一 奖励 ， 自 发 学 
会 了 按 按钮 。 
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汤 随机 系统 


在 前 面 介绍 机 器 学 习 时 ， 除 了 贝 叶 斯 估计 ， 笔 者 大 多 使 用 了 批量 处 理 
的 优化 方法 。 例 如 动态 规划 就 是 一 个 典型 的 批量 处 理 方法 。 我 们 把 使 用 这 
些 方法 的 系统 称 为 确定 性 系统 。 

而 强化 学 习 中 涉及 的 马尔 可 夫 决 策 过 程 ( Markov Decision Process， 
MDP ) 具有 不 确定 性 ， 我 们 把 这 类 系统 称 为 随机 系统 ( 回国 国 )。 

































































| 确定 性 系统 ]】 《一 一 > 














动态 规划 等 批量 处 ”基于 马尔 可 夫 决 策 过 程 
理 的 优化 方法 ( 不 确定 性 ) 的 优化 方法 
”在 线 机 器 学 习 的 应 


























确定 性 系统 和 随机 系统 


随机 系统 可 以 通过 不 断 输入 数据 的 流 处 理 来 进行 机 器 学 习 。 需 要 采用 
流 处 理 方式 这 一 点 也 是 随机 系统 的 特征 之 一 。 

为 了 与 批 处 理 机 器 学 习 (批量 学 习 或 离线 学 习 ) 对 应 ， 我 们 把 这 种 适 
合流 处 理 的 机 器 学 习 称 为 在 线 机 器 学 习 《 在 线 学 习 )。 在 线 机 器 学 习 适 用 
于 贝 叶 斯 统计 学 和 强化 学 习 。 





























加 策略 和 强化 学 习 





在 强化 学 习 中 ,智能 体 (agent ) ( 这 里 指 程序 ) 会 从 分 类 带 产 生 的 规 
则 集中 选择 某 项 规则 ， 然 后 对 外 界 环境 刺激 做 出 反应 并 从 环境 中 获得 相应 
的 回报 ， 进 而 更 新 分 类 央 ( 医 E )- 
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观测 到 Re 
ee 选择 候选 规则 





规则 集 ll 














强化 学 习 的 框架 





当 环 境 处 于 某 种 状态 时 ， 智 能 体会 随机 选择 接 下 来 的 动作 。 我 们 把 状 
态 到 动作 的 映射 称 为 策略 (policy )， 用 x 表示 ( 国 上 到 ), 


:可 夫 决 策 过 程 
决策 过 程 状态 s ES 
状态 转移 概率 


P(st+ilsoar) | 





















































可 报 函 数 


A(s,a)=P(a=als.=s) rtr1=7 (Si,Q) 




















策略 逐渐 优化 ， 即 寻求 一 个 最 状态 和 行动 共同 
策略 使 未 来 期 望 回 报 最 大 化 




















强化 学 习 


























马尔 可 夫 决 策 过 程 和 强化 学 习 


假设 在 时 刻 上 观测 到 的 环境 状态 为 %， 按 照 策略 < 采取 动作 w 后 ， 根 
据 规定 的 状态 转移 概率 能 够 确定 下 一 时 刻 t+1 的 状态 s,,1。 

由 此 可 见 ， 马 尔 可 夫 决 策 过 程 是 一 个 强化 学 习 模 型 ， 下 一 时 刻 的 状态 
只 与 当前 时 刻 1 的 状态 和 采取 的 动作 有 关 。 行 动 的 回报 为 7,,1。 

回报 是 由 状态 和 行动 共同 决定 的 。 强 化 学 习 的 目的 是 不 断 选 择 好 的 策 
略 ， 即 寻求 一 个 最 优 策略 使 未 来 期 望 回 报 最 大 化 。 





























是 回报 和 价值 函数 








为 了 使 选择 的 动作 能 够 获得 最 大 的 回报 ， 我 们 还 需要 考虑 未 来 的 期 望 





回报 。 
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口 累积 折扣 回报 

从 初始 状态 到 终止 状态 ， 智 能 体 通过 采取 行动 获得 的 回报 总 和 称 为 累 
积 回 报 (参照 OI 站 )。 为 了 使 累积 回报 最 大 化 ， 我 们 需要 使 用 价值 函数 
( value function ) 来 评价 未 来 的 一 个 状态 或 行动 。 价值 函数 就 相当 于 动态 
规划 和 A’ 算法 中 的 收益 或 成 本 (评价 函数 )。 


(TE sn 


累积 回报 的 公式 如 下 所 示 。 
4 Th 














但 是 ， 当 了 趋向 无 穷 大 时 就 演变 为 无 限时 段 ， 累 积 回报 可 能 会 发 散 。 
0 :折扣 回报 R, (回国 国 ) 来 代替 累积 回报 。? 称 为 折扣 因 
子 (参照 四 J 站)。y 越 小 表示 越 不 看 重 未 来 的 回报 ， 未 来 的 回报 对 决策 结 
果 的 影响 越 小 。 使 R, 最 大 化 的 策略 会 随 着 y 的 取 值 发 生 改 变 。 通 常 ) 会 设 
为 0.9 等 较 大 的 值 。 





= 三 网 i (0O<7y<D 





累积 折扣 回报 的 公式 


(OE 折扣 因子 


折扣 因子 的 概念 与 商品 价值 的 计算 方法 是 相通 的 。 投 资 决策 理论 中 也 会 使 
累积 折扣 回报 作为 投资 决策 的 指标 ， 该 指标 称 为 净 现 值 ( Net Present Value， 
NPV )。 
























































为 了 找到 最 优 策略 ， 我 们 需要 用 价值 函数 来 准确 地 估计 一 个 状态 或 动 
作 的 价值 。 

价值 函数 包括 状态 价值 函数 (state-value function ) 矿 (9) 和 动作 价值 函 
数 (action-value function ) Qi(s, a)。 
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蕊 状态 价值 函数 
当 环 境 处 于 状态 s 时 ， 在 策略 天 下 的 累积 折扣 回报 的 期 望 值 是 从 状态 
s 出 发 ,使 用 策略 x 所 带 来 的 累积 折扣 回报 ( )。 





V(s)= ElR |s,=s]=E, ew Es | 


k=0 





状态 价值 函数 


如 动作 价值 函数 

当 环 境 处 于 状态 时 ， 根 据 策 略 x 采取 行动 a 之 后 得 到 的 累积 折扣 回 
报 期 望 值 0.(s, a) 也 称 为 2 值 (C-value )。 状 态 价值 函数 VV(s) 可 以 用 策略 
Zz 和 动作 价值 函数 Cs, a) 表示 ( )。 


Qi(5,0) = ElR, |s, = 5,4, = a] 





V.(s) = 27(s,0)Q,(s,a) 


ES 动作 价值 函数 的 公式 


让 动作 价值 函数 的 值 最 大 的 函数 称 为 最 优 动 作价 值 函数 ( optimal action- 
value function ) O*(s, a)， 其 对 应 的 策略 用 最 优 策 略 x 表示 国 E 和 Nl ), 





QO'(s,4) =0,.(s,4) = max OO,(s,a) 





最 优 动作 价值 函数 的 公式 
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TC 


状态 价值 函数 和 动作 价值 函数 使 用 累积 折扣 回报 来 计算 长 期 回报 ， 这 
适用 于 通过 不 断 试 错 来 进行 学 习 的 在 线 机 器 学 习 。 

在 马尔 可 夫 决 策 过 程 中 ， 状 态 价值 函数 V(s) 可 以 用 递归 的 形式 表示 ， 
此 时 得 到 的 方程 称 为 贝尔 曼 方程 。 价 值 函数 的 贝尔 曼 方程 可 以 用 状态 s、 
动作 a 和 下 一 个 状态 "来 表示 ， 具 体 如 图 号 量 员 所 示 。 















































V(s)= > za)> PC =s lw =so=aI+7 玉 Cs] 


QO (s,a)=r(s,a)+ 7OV,(s) Ps |s,a) 


V(s)=27(s",a)Q, (sa) 





价值 函数 的 贝尔 曼 方 程 























时 刻 z 的 价值 函数 由 回报 mr， 和 VV(s") 来 确定 ， 我 们 可 以 通过 函数 近 
似 的 方法 来 拟 合 mm ， 和 TV.(s')。 求 解 方 法 有 SARSA ( State-Action-Reward- 
State-Action ) 第 法 、Actor=Critic 算 法 、QO 学习 等 。 


在 强化 学 习 中 ，O 学 习 ( 0O-Learning ) 是 十 分 典型 的 例子 站 
0 学 习 是 对 最 优 动作 价值 函数 2 (%, a) 的 2 值 进行 估计 以 求 得 最 优 策略 的 
方法 。 

最 优 策略 x 推荐 我 们 选择 具有 最 大 动作 价值 的 动作 。 下 一 个 状态 的 
0 值 和 实际 2 值 之 间 的 误差 用 TD 误差 (Temporal Difference error ) 51 表 
示 ， 这 个 误差 不 会 收敛 到 零 。 
用 TD 误差 乘 以 学 习 率 (学习 系数 ) a (0<aw 科 1) 可 以 得 到 接近 平衡 
状态 的 冲 量 。a 越 大 ， 动 作价 值 函 数 的 更 新 越 快 ,但 是 也 会 导致 环境 不 稳 
定 ， 所 以 我 们 通常 把 a 设 为 0.1 左右 。 
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2 学 习 对 最 优 动作 价值 函数 的 2 值 进行 估计 


区 和 =(OH+7ymaxOG ar-OGw) TD RE 
Q(5,,0) © Q(s,,0) + Qo, 


a’ =argmax O(s,,a) 根据 Plals) 的 内 容 ， 策 略 会 是 贪 
| | “ 心算 法 、 随 机 化 算法 、e- 贪 心算 法 


A(s,,a,)= P(a, |s,) 
es 或 玻 尔 效 曼 选 择 算法 等 














ES oO 学 习 


学 习 通过 使 TD 误差 趋 于 零 来 估计 最 优 动作 价值 函数 的 2 值 ， 但 我 
们 要 另行 考虑 如 何 寻找 策略 。 

为 了 充分 利用 学 习 结 果 ， 我 们 要 选择 有 最 大 2 值 的 动作 。 根 据 选择 
的 动作 ， 有 以 下 几 种 算法 。 





人 贪心 算法 

贪心 算法 也 叫 贪 禁 算 法 。 在 求解 问题 时 ， 它 总 是 选择 2 值 最 大 的 动 
作 )。 

6(a, b) 称 为 克 罗 内 克 辑 数 (Kronecker delta， 又 称 克 罗 内 克 0 函数 ) 贪心 
算法 总 会 做 出 当前 最 好 的 选择 ， 即 使 有 其 他 动作 可 能 会 使 整体 更 优 ， 也 不 会 
进行 搜索 ， 即 不 从 整体 最 优 进 行 考 虑 ， 可 以 说 是 一 种 停止 思考 的 状态 。 








Pl(a, |s,) 6(a,,a;) 
1 (a=b) 
0 (azb) 


6(a,b) -| 





四 贪心 算法 


蕊 随机 化 算法 
随机 化 算法 基于 随机 方法 进行 搜索 。 它 会 随机 选择 动作 ， 所 以 累积 折 
扣 回 报 也 是 随机 的 ， 得 不 到 最 大 值 。 
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了 e- 贪心 算法 

5- 贪心 算法 ( 随机 贪心 算法 ) 是 结合 了 随机 化 算法 和 贪心 算法 的 方 
法 。 以 s 的 概率 进行 探索 ， 以 (1-s) 的 概率 利用 基于 知识 的 贪心 算法 来 
选择 当前 最 优 的 动作 ， 由 此 我 们 可 以 通过 改变 se 来 调整 贪心 选择 性 质 和 随 
机 性 质 的 权重 ( 国 E 和 上 )。 


* £ 
Pla, Wj 


2- 贪心 算法 





蕊 玻 尔 兹 曼 选 择 算法 

玻 尔 效 曼 选择 算法 中 有 一 个 负 热 力学 温度 (inverse temperature ) 8 系 
数 ( )。 上 述 的 e- 贪心 算法 在 基于 概率 s 选择 动作 时 ， 完 全 不 考虑 
2 值 的 大 小 。 而 在 玻 尔 效 曼 选择 算法 中 ，92 值 越 大 的 动作 被 选择 的 概率 越 
高 ，92 值 越 小 的 动作 被 选择 的 概率 越 低 ， 在 这 一 点 上 可 以 说 它 是 s- 贪心 算 
法 的 改良 版 。 8 值 越 大 ， 基 于 知识 的 贪心 选择 性 质 就 越 强 , 8 值 越 小 ， 随 
机 性 质 就 越 强 。 


Pla, |s,)xexp(PO(s,,a,)) 


玻 尔 兹 曼 选择 算法 











关于 强化 学 习 和 利用 TD 误差 的 TD 学 习 ， 大 家 可 以 通过 图 灵 社 区 本 
书 主页 相关 文章 中 的 链接 了 解 相关 内 容 。 

DQN (Deep Q-Network ) 算法 与 深度 学 习 相 结合 ， 并 在 0 学 习 中 基 
于 神经 网 络 进行 TD 误差 的 优化 计算 。 

DQN 算法 由 Google 的 子 公 司 DeepMind 开发 ， 最 初 用 于 打 砖 块 
( Breakout ) 和 吃 豆 子 (PAC-MAN ) 游戏 ， 后 来 连 AlphaGo 的 围棋 训练 中 
也 采用 了 该 算法 。 











下 面 来 介绍 迁移 学 习 。 


要 点 、 名 域 和 域 自 适 应 
名 元 学 习 





英 域 和 域 自 适应 





假设 有 一 个 针对 某 个 任务 训练 好 的 分 类 器 ， 它 的 性 能 很 好 ， 而 且 似乎 
可 以 迁移 到 新 的 模型 中 帮助 解决 新 的 课题 。 但 是 ， 两 个 任务 并 不 完全 相 
同 ， 而 且 分 类 融 在 泛 化 能 力 方面 还 有 所 不 足 ， 也 没有 大 量 的 训练 样本 。 在 
这 样 的 情况 下 ， 我 们 可 以 采用 迁移 学 习 的 方法 。 



































迁移 学 习 是 将 从 一 个 或 多 个 任务 中 学 到 的 知识 用 于 高 效 构建 新 任务 的 
有 效 假设 的 问题 ， 即 为 了 高 效 地 完成 新 任务 而 重新 使 用 其 他 任务 的 训练 数 
据 和 训练 结果 。 我 们 把 解决 这 个 问题 的 方法 统称 为 域 自 适 应 。 

我 们 把 从 已 经 学 习 过 的 任务 中 得 到 的 知识 及 分 类 器 的 领域 称 为 源 域 
( source domain )， 与 之 相对 的 新 领域 称 为 目标 域 (target domain )。 源 域 和 
目标 域 之 间 既 有 相同 点 又 有 不 同 点 ， 而 迁移 学 习 的 目标 是 尽量 充分 利用 源 
域 的 信息 ， 有 效 获取 符合 目标 域 的 、 准 确 度 高 的 分 类 器 。 

例如 ， 源 域 是 一 个 日 语 的 语言 模型 ， 我 们 可 以 把 它 当 成 日 英 翻译 时 使 
用 的 翻译 模型 的 构建 素材 来 使 用 ( )。 

迁移 学 习 就 是 把 源 域 的 知识 用 于 目标 域 的 新 任务 中 。 迁 移 学 习 有 几 个 
不 同 的 名 称 。 
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分 类 器 知识 数据 评分 类 器 YY 知识 数据 


与 新 任务 相似 但 不 完全 相同 


希望 解决 的 问题 
有 大 量 数据 和 知识 可 用 于 完成 新 任务 没 


没有 足够 的 数据 和 知识 帮助 解决 这 个 问题 


© 
be 
































日 语 的 语言 模型 、 日 语 语 料 
库 、 图 像 识 别 、 物 体 识别 、 
同义词 集 


翻译 模型 、 日 英 双语 语 
料 库 、 服 装 识别 、 同 义 
词 集 





























区 E 潮 网 ”迁移 学 习 的 框架 


按照 源 域 和 目标 域 中 训练 数据 是 否 带 有 标记 ,我 们 可 以 将 迁移 学 习 分 
为 归纳 迁移 学 习 、 直 推 式 迁移 学 习 、 自 学 习 和 无 监督 迁移 学 习 。 


通常 情况 下 ， 我 们 会 把 要 解决 的 问题 设 为 直 推 式 迁移 学 习 或 自学 习 
( ENE ). 











| 
归纳 迁移 学 习 直 推 式 迁 移 学 习 


Inductive Transfer Transductive Transfer 
Learning Learning 











学 习 无 监督 迁移 学 习 


Self-Taught Learning Unsupervised Transfer 


Learing 





迁移 学 习 的 种 类 


移 


按照 迁移 知识 的 方式 ， 迁 移 学 习 可 以 分 为 知识 发 送 者 〈 源 域 ) 的 迁 
迁移 ， 源 域 的 学 习 又 可 以 分 为 基于 实例 的 迁移 


和 知识 接收 者 ( 目标 域 ) 的 i 
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和 基于 特征 的 迁移 。 目 标 域 的 学 习 是 基于 模型 的 迁移 。 迁 移 学 习 的 方法 如 
BE 所 示 。 


知识 发 送 者 ( 源 域 ) 知识 接收 者 ( 目标 域 ) 


基于 实例 的 迁移 基于 特征 的 迁移 基于 模型 的 迁移 











对 实例 加 权 特征 空间 变换 将 源 域 和 目标 域 的 模型 与 样本 结 
合 起 来 ， 调 整 模型 的 参数 





TrBagg ( 迁移 学 习 版 Bagging ) 基于 谱 特征 对 齐 的 迁移 学 习 多 层 贝 叶 斯 模型 
TrAdaBoost ( 迁移 学 习 版 AdaBoost)| 相似 度 学 习 混合 模型 
协 方差 偏 移 神经 网 络 








迁移 学 习 的 方法 














在 基于 深度 学 习 的 图 像 识 别 任务 中 ， 当 识别 新 的 图 像 时 ， 通 常会 借助 
现 有 的 知识 进行 迁移 学 习 。 

源 域 和 目标 域 均 没有 标记 数据 的 迁移 学 习 称 为 无 监督 迁移 学 习 。 无 监 
督 迁移 学 习 是 一 种 相似 性 学 习 ， 它 会 根据 对 源 域 数据 进行 聚 类 所 得 到 的 距 
离 与 目标 域 距 离 的 相关 性 ， 在 源 域 和 目标 域 之 间 建 立 对 应 关系 。 























互 半 监督 学 习 与 迁移 学 习 的 区 别 

如 果 待 识别 的 数据 和 标记 数据 的 分 布 不 同 〈 常见 现象 )， 我 们 可 以 通 
过 迁移 学 习 来 提高 分 类 器 对 未 知 数据 的 泛 化 能 力 。 半 监督 学 习 会 利用 少量 
的 标记 数据 和 大 量 的 未 标记 数据 进行 学 习 ， 从 而 提高 分 类 器 的 泛 化 能 














王 多 任务 学 习 

迁移 学 习 中 存在 发 送 知识 的 源 域 和 接收 知识 的 目标 域 。 源 域 和 目标 域 
之 间 互 相 迁 移 ， 以 此 来 增加 共同 知识 的 方法 称 为 多 任务 学 习 (multi-task 
learning )。 多 任务 学 习 的 目标 是 提高 所 有 域 中 分 类 器 的 性 能 。 























一 些 分 类 器 和 算法 在 特定 的 域 中 有 很 好 的 泛 化 能 力 ， 但 它们 很 难 应 月 





< 
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到 其 他 域 中 。 总 体 来 看 ， 其 性 能 和 一 些 通用 分 类 器 或 算法 没有 太 大 区 别 。 
这 就 是 没有 免费 的 午餐 定理 ( 参照 RE )。 使 用 这 个 定理 能 够 很 好 地 解 
释 一 些 对 域 加 以 限制 后 出 现 的 框架 问题 。 

元 学 习 ( meta leaming ) ( 参照 加 四 ) 就 是 学 习 “ 如 何 学 习 ”。 例 如 ， 
有 一 个 分 类 器 能 够 基于 观测 数据 从 多 个 虚拟 空间 或 模型 中 选择 合适 的 模 
型 。 此 时 ， 为 了 选择 基于 顶层 域 的 分 类 器 ， 我 们 需要 获得 元 知识 来 构建 分 
类 器 。 





0 没有 免费 的 午餐 定理 元 学 



























































使 用 代价 函数 的 极 值 搜索 算法 对 所 有 可 在 心理 学 和 认 知 科学 
能 的 代价 函数 求 平均 ， 得 到 的 结果 是 所 有 算 中 ,个 体 对 自己 的 认 知 活动 
法 的 性 能 相同 ( Wolpert 和 Macready )。 的 客观 认 知 称 为 元 学 习 。 
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geht ETE 


下 面 来 介绍 分 布 式 人 工 智能 。 


要 点 、 6 智能 体 


6 黑板 模型 





沁 智能 体 





旦 序 具 有 学 习 能 力 后 ， 能 够 通过 感知 环境 来 决定 自己 的 行动 。 我 们 很 


容易 联想 到 机 器 人 ， 不 过 这 里 的 动作 主体 叫 智能 体 或 智能 主体 。 
一 些 没有 实体 装置 的 软件 如 果 能 够 通过 输入 驱动 定期 或 不 定期 地 运 





村， 也 可 以 称 为 智能 体 。 
智能 体 包括 理性 智能 体 、 
和 现 有 的 知识 库 相 比 ， 自 


| 











自治 智能 体 和 多 智能 体 等 医 E 寺 7 )- 
治 智能 体会 优先 使 用 自己 学 习 到 的 经 验 知 


识 。 它 是 一 种 创新 系统 ， 能 做 出 系统 设计 者 预料 之 外 的 动作 。 
在 多 智能 体系 统 中 ， 如 果 智 能 体 个 体 的 功能 结构 相同 就 称 为 局 条 




















( homogeneous ) 系统 ， 如 果 不 

















同 就 称 为 异 构 ( heterogeneous ) 系统 。 








在 智能 体 中 ,任务 分 配 的 协商 协议 通常 使 用 的 是 合同 网 协议 ( contract 
net protocol )。 合 同 网 协议 用 于 对 管理 者 进行 任务 的 公布 和 投标 。 
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智能 体 根据 感知 的 
境 、 拥 有 的 先 验 知 





环 


识 





和 模型 来 选择 能 


























识 库 中 的 知识 
沪 创 新 系统 








性 能 最 大 化 的 动作 


智能 体 的 类 型 


己 的 经 验 优先 于 





构 异 构 














多 个 智能 体 共同 完成 一 个 
任务 ， 或 多 个 智能 体 基于 
多 个 标准 识别 数据 进行 协 
同 合作 


























当 多 智能 体 协 同 合作 求解 问题 时 ， 它 们 


黑板 模型 。 
在 黑板 模型 中 ， 














黑板 被 看 作 一 个 共享 自 
假设 黑板 上 记录 着 问题 (一 些 假 说 ) 和 初 妇 














会 共享 一 块 存储 区 域 ， 这 就 是 


任务 求解 空间 ( 共享 内 存 )。 


台数 据 。 智 能 体会 从 黑板 上 读 取 








数据 进行 推理 ， 再 把 推理 结果 写 到 黑板 上 供 其 他 智能 体 使 用 。 重 复 这 一 过 
程 ， 就 能 轻松 解决 一 些 复杂 的 问题 了 。 


























深度 学 习 是 基于 多 层 神 经 网 络 和 多 个 单元 的 神经 网 络 
学 习 ，2010 年 后 受到 广泛 关注 。 本 章 ， 笔 者 将 比较 神 
经 网 络 学 习 和 深度 学 习 ， 并 对 当前 热门 的 卷 积 神经 网 络 
( Convolutional Neural Network，CNN ) 和 循环 神经 网 络 
( Recurrent Neural Network，RNN ) 这 两 种 深度 学 习 网 络 
结构 进行 说 明 。 









































下 面 来 介绍 多 层 神经 网 络 。 








要 点 、 6G 多 层 感知 器 包 激 活 函 数 和 梯度 消失 问题 
名 随机 梯度 下 降 法 @ 训练 误差 和 测试 误差 
@ 正则 化 和 Dropout 名 网 络 学 习 改 进 





注 多 层 感知 器 


在 介绍 深度 学 习 之 前 ， 笔 者 先 带 大 家 简单 回顾 一 下 神经 网 络 ， 并 对 其 
中 与 深度 学 习 有 关 的 内 容 加 以 说 明 。 
由 输入 层 、 中 间 层 和 输出 层 组 成 的 多 层 感 知 器 的 应 用 是 神经 网 络 有 监 
督学 习 领 域 的 一 项 巨大 突破 ( )。 另 外 ， 误 差 反 向 传播 算法 (back 
propagation ) 通过 调整 网 络 输入 的 权重 系数 来 降低 实际 输出 与 标记 数据 之 
间 的 误差 ， 它 在 神经 网 络 有 监督 学 习 领 域 也 发 挥 了 重要 的 作用 。 






















































































多 层 感 知 器 


时 激活 函数 和 梯度 消失 问题 











神经 网 络 中 使 用 单位 跃 阶 函数 和 Logistic 函数 作为 激活 函数 。 随 着 输 
出 层 的 输出 值 不 断 增 大 ， 这 些 激 活 函 数 能 把 网 络 的 最 终 输出 值 收 敛 于 1。 
而 在 深度 学 习 中 ， 使 用 上 述 函数 可 能 无 法 完成 学 习 。 深 度 学 习 中 通常 
使 用 的 是 修正 线性 单元 (Rectified Linear Unit，ReLU )。 修 正 线性 单元 也 
称 为 和 斜坡 函数 (ramp function )。 
2011 年 泽 维尔 等 人 发 表 论 文 称 ， 作 为 激活 函数 使 用 修正 线性 单元 的 
人 优 于 双 曲 正切 函数 和 softplus 函数 。 
Sigmoid 函数 和 双 曲 正切 函数 的 导数 包含 了 原 函 数 本 身 ， 而 修正 线性 
单元 的 导数 只 包含 最 简单 的 数字 0 或 1， 非常 便于 计算 。 另 外 ,在 深度 神 
经 网 络 中 进行 前 向 传播 和 反 向 传播 时 ，Sigmoid 卫 数 经 过 多 次 运算 后 ,会 
使 权重 系数 发 散 或 使 曲线 梯度 变 为 零 ， 即 出 现 梯度 消失 问题 (vanishing 
gradient problem )， 所 以 现在 通常 使 用 修正 线性 单元 作为 激活 函数 ( 
)。 
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wo 
沪 
Nm 



































Sigmoid 函 数 Pe 修正 线性 单元 
( Logistic 函 数 ) 切 函 数 ( 又 称 线性 整流 函数 ) 























f(x)= 全 f(x)=tanhx f(x) = max(0,x) 
l+e™ 
1,x 三 0 


0,x<0 


f= -7 f=1-tanh x 三 CD -| 





激活 函数 


f(x)=log(l +e’) 


softplus 函数 的 公式 
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日 随机 梯度 下 降 法 

在 统计 机 器 学 习 中 ， 我 们 使 用 了 最 大 似 然 估计 和 梯度 下 降 法 来 拟 合 函 
数 模型 。 在 拟 合 过 程 中 ， 可 以 使 用 最 速 下 降 法 来 求解 损失 函数 或 误差 函 
数 。 这 个 方法 适用 于 一 次 性 输入 全 部 数据 样本 的 批量 学 习 。 

在 神经 网 络 的 学 习 过 程 中 ， 我 们 使 用 的 是 随机 梯度 下 降 法 〈Stochastic 
Gradient Descent，SGD )， 从 整体 抽取 一 部 分 数据 作为 一 个 小 批量 (mini- 
batch ) 来 迭代 更 新 权重 系数 ( ), 

要 提前 选 好 合适 的 小 批量 数据 D;，D; 的 数量 通常 为 10 ~ 100 个 。 


















































误差 函数 的 权重 更 新 公式 全 部 样本 的 误差 ( 批量 学 习 ) 


N 
Wrt+1 三 Wr 一 eV E(w) 二 >, E(w) 











ye 批量 学 习 的 误差 ( D, 的 数量 为 10 ~100 个 ) 


- 守 ; 
ED = es 0) 





梯度 下 降 法 





秘 训练 误差 和 测试 误差 





在 学 习 过 程 中 ,我 们 用 训练 误差 来 表示 分 类 带 的 实际 输出 与 标记 数据 


之 间 的 差异 ( 荔 E 泵 左 图 )。 在 构建 分 类 器 时 要 使 训练 误差 最 小 化 。 我 们 
用 横 轴 表示 人 迭代 次 数 ， 用 纵 轴 表 示 误 差 ， 这 时 得 到 的 曲线 称 为 学 习 曲 线 。 
在 训练 集 上 的 误差 称 为 训练 误差 ， 在 样本 总 体 上 的 期 望 误 差 称 为 泛 化 
误差 。 为 了 评价 分 类 器 的 性 能 ， 我 们 需要 知道 分 类 器 在 新 样本 上 的 误差 ， 
即 泛 化 误差 。 
但 是 ， 由 于 准备 新 数据 的 难度 较 大 ， 所 以 我 们 通常 使 用 测试 数据 的 测 
试 误差 来 评价 分 类 器 的 泛 化 能 力 ( 医 BB 表 右 图 )。 






































疯 sc SE 突然 高 [| < 人 各 
训练 误差 则 试 误差 突然 升 高 加 ”过 拟 


测试 误差 ” 误差 U 
提前 结束 


迭代 次 数 迭代 次 数 
学 习 过 程 顺利 测试 误差 出 现 偏离 
( 学 习 过 程 不 顺利 ) 





训练 误差 和 测试 误差 





如 果 学 习 过 程 很 顺利 ， 那 么 训练 误差 和 测试 误差 的 学 习 曲 线 的 变化 趋 
势 相 同 。 如 果 测 试 误差 曲线 出 现 偏 离 ， 束 表示 学 习 效 果 不 佳 ， 很 可 能 发 生 
了 过 拟 合 现象 ( 过 度 学 习 )。 这 时 通常 会 提前 结束 测试 。 





村 正则 化 和 Dropout 





为 了 防止 过 拟 合 现 象 发 生 ， 我 们 可 以 使 用 正则 化 方法 给 权重 系数 加 上 
限制 ， 也 可 以 用 与 正则 化 类 似 的 惩罚 函数 法 给 权重 系数 设置 上 限 。 另 外 ， 
Dropout 也 是 一 种 防止 神经 网 络 模型 发 生 过 拟 合 的 方法 ( )。 











以 一 定 的 概率 让 神经 
元 的 输出 结果 乘 以 
pa ( 0<p<1 内 








Dropout 
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Dropout 是 指 在 神经 网 络 的 训练 过 程 中 ， 对 于 神经 网 络 单元 ， 按 照 一 
定 的 概率 将 其 暂时 从 网 络 中 移 除 ， 每 次 更 新 权重 系数 时 重新 选择 要 移 除 
的 单元 。 在 Dropout 方 法 中 ， 临 时 被 删除 的 单元 在 输出 时 ， 其 权重 会 放大 
Pp 倍 (0 三 p 三 1) 该 方法 通过 强制 减 小 神经 网 络 的 自由 度 ” 来 防止 发 生 过 
拟 合 。 


泌 网 络 学 习 的 改进 


在 神经 网 络 的 训练 过 程 中 ， 人 们 还 进行 了 以 下 几 点 改进 。 





























口 数据 归 一 化 

基于 数据 的 平均 值 和 方差 进行 标准 化 的 操作 叫 作 数据 归 一 化 ， 也 叫 数 
据 规范 化 (normalization ) 或 标准 化 ( standardization )。 具 体 做 法 通常 是 
“使 数据 的 平均 值 为 0” 或 “使 数据 的 方差 〈 或 标准 差 ) 为 1”。 

另外 ， 数 据 白化 (whitening ) 指 将 特征 之 间 的 相关 性 降 为 0 的 操作 。 
归 一 化 和 白化 都 是 预 处 理 方 法 。 如 果 在 训练 神经 网 络 时 实施 了 预 处 理 ， 那 
么 在 开展 识别 工作 时 也 需要 实施 相同 的 预 处 理 。 









































口 数据 增强 

在 图 像 识别 中 ,我们 通过 对 图 像 进 行 平移 、 镜 像 、 旋 转 、 对 比 度 变 
换 、 颜 色 变 换 以 及 噪声 扰动 等 操作 来 增加 训练 样本 ， 以 此 提高 模型 对 低 质 
量 图 像 的 识别 精度 。 











口 使 用 多 种 神经 网 络 

构建 多 种 不 同 结构 的 神经 网 络 并 分 别 进行 训练 ， 通 过 取 模 型 平均 
( model averaging ) 来 提高 网 络 模型 的 泛 化 能 力 。 这 类 似 于 集成 学 习 ， 使 用 
Dropout 也 能 达到 同样 的 效果 。 














口 学 习 率 的 确定 方法 
在 神经 网 络 的 学 习 过 程 中 ， 随 着 时 间 的 推移 逐渐 降低 学 习 率 ， 或 者 为 











中 ” 指 线 性 神经 网 络 中 所 有 权 值 和 阅 值 的 个 数 总 和 。 译 者 注 





不 同 层 设 置 不 同 的 学 习 率 ， 都 能 提高 网 络 的 学 习 效 率 。 还 有 一 些 算法 能 饮 
自 适 应 地 为 每 个 参数 分 配 不 同 的 学 习 率 ， 比 如 AdaGrad 算法 。 该 算法 中 ， 
更 新 量 的 变换 公式 如 下 所 示 。 
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eV 有 一 VE 
t,_ (VE )? 








下 面 来 介绍 受 限 玻 尔 兹 曼 机 ( Restricted Boltzmann Machine，RBM )。 











要 点 、 @ 玻 尔 北 曼 机 和 受 限 玻 尔 兹 曼 机 
包 预 训 练 





缠 玻 尔 兹 曼 机 和 受 限 玻 尔 兹 曼 机 




















NS 


如 图 区 2 左 图 所 示 ， 玻 尔 兹 曼 机 的 各 节点 连接 成 一 个 无 向 完全 图 ， 








成 一 个 多 层 结构 。 玻 尔 兹 曼 机 由 可 见 层 和 隐藏 层 组 成 。 

不 同 于 包含 输入 和 输出 的 有 向 图 结构 的 感知 器 ， 玻 尔 效 曼 机 在 计算 方 
面 非常 复杂 。 所 以 人 们 又 提出 了 受 限 玻 尔 效 曼 机 ( 医 E 吉 | 右 图 )， 受 限 玻 尔 
效 曼 机 由 可 见 层 和 隐藏 层 这 两 层 结构 组 成 ， 相 同 层 内 单元 之 间 均 无 连接 。 



































隐藏 层 ( 中 间 层 ) 








可 见 层 ( 输出 ) 





玻 尔 兹 曼 机 和 受 限 玻 尔 兹 曼 机 





镶 预 训练 








在 多 层 网 络 训练 的 过 程 中 可 能 会 出 现 梯 度 消失 的 问题 ， 从 而 无 法 完成 
深层 网 络 的 训练 。 神 经 网 络 越 深 ,这 个 趋势 越 显著 ,其 原因 可 归结 于 权重 
参数 的 随机 初始 化 。 我 们 可 以 使 用 预 训练 模型 来 解决 这 个 问题 。 

在 预 训练 的 过 程 中 ， 多 层 神经 网 络 会 从 输入 层 开始 顺 次 分 成 受 限 玻 尔 
效 曼 机 那 种 两 层 结构 的 形式 ， 然 后 通过 无 监督 学 习 确 定 初始 值 。 这 是 一 个 
把 分 离 出 来 的 网 络 当 成 自 编 码 器 ( autoencoder ) 的 方法 ， 只 在 最 后 的 输出 
层 随机 设置 权重 。 这 样 ， 输 出 层 之 前 的 多 层 神经 网 络 就 可 以 作为 特征 提取 
器 使 用 ， 从 而 防止 梯度 消失 的 问题 发 生 ， 顺 利 完 成 神经 网 络 的 训练 。 


































































































深度 神经 网 络 


下 面 来 介绍 深度 神经 网 络 ( Deep Neural Network，DNN)。 








lI 大 二 叭 下 学 

















要 点 、 包 有 监督 学 习 和 无 监督 学 习 
包 深度 信念 网 络 
名 自 编码 器 
包 稀 玻 编码 























前 面 介 绍 的 多 层 感 知 器 和 玻 尔 兹 曼 机 的 网 络 层 数 还 能 更 多 更 深 。 我 们 

















测 


单元 数 和 层 数 达 到 100 以 上 的 多 层 神 经 网 络 称 为 深度 神经 网 络 。 





基于 深度 神经 网 络 的 机 器 学 习 称 为 深度 学 习 。 深 度 学 习 可 以 分 为 有 监 














型 (EE )- 





多 层 感知 器 ( 全 连接 网 络 ) 
卷 积 神经 网 
循环 神经 网 络 




















深度 信念 网 络 
+Softmax 层 


前 向 传播 


加 ES 有 监督 学 习 和 无 监督 学 习 的 分 类 








督学 习 和 无 监督 学 习 ， 但 是 我 们 很 难 根据 使 用 的 学 习 方法 明确 划分 网 络 类 





才 尔 兹 曼 机 
编码 器 

深度 玻 尔 兹 盟 机 
深度 信念 网 络 




















反 向 传播 


























无 监督 学 习 中 通常 只 使 用 前 向 传播 ， 而 有 监督 学 习 中 除了 使 用 前 向 传 
播 ， 还 需 使 用 反 向 传播 更 新 权重 ， 并 训练 多 层 神经 网 络 。 














贤 


电 深度 信念 网 络 














2006 年 ， 辛 顿 等 人 提出 了 由 受 限 玻 尔 兹 





络 (Deep Belief Network，DBN )， 并 使 用 它 来 进行 学 习 ( 国 @@ 鸭 )， 这 种 
方法 与 从 可 见 层 开始 采用 受 限 玻 尔 效 曼 机 的 结构 进行 学 习 的 预 训练 和 自 编 











码 需 密切 相关 。 








在 深度 信念 网 络 中 ， 受 限 玻 尔 兹 曼 机 的 堆 县 部 分 采用 无 监督 学 习 的 让 


曼 机 堆 释 构成 的 深度 信念 网 





























练 方式 ， 在 最 顶层 级 联 一 个 Softmax 层 实 现 有 监督 学 习 的 网 络 ， 通 过 把 输 

















出 结果 与 期 望 输出 进行 比 对 ， 再 把 误差 反 向 传播 到 所 有 底层 网 络 。 





Softmax 层 








深度 信念 网 络 


自 编 码 带 是 一 种 捕捉 数据 特征 并 进行 特 得 





























在 Softmax 层 进 行 有 监督 学 习 











F 表 达 的 前 向 传播 网 络 。 先 将 


训练 数据 输入 到 训练 网 络 的 第 一 层 得 到 一 个 输出 ， 然 后 将 该 输出 作为 第 二 
层 的 输入 再 得 到 一 个 输出 ， 由 此 复 现 最 初 的 训练 数据 ( 医 E@ 量 串 )。 白 编码 
需 是 一 种 没有 标记 数据 的 无 监督 学 习 。 网 络 结构 与 受 限 玻 尔 效 曼 机 相似 ， 
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可 在 预 训练 中 使 用 。 

被 称 为 编码 器 的 输入 层 ( 受 限 玻 尔 兹 曼 机 中 的 可 见 层 ) 首先 通过 
y= 用 Wx+b) 的 运算 得 到 数据 特征 (中间 层 、 隐 藏 层 的 特征 表达 )， 然 后 构 
建 输出 层 ， 使 其 与 输入 层 的 单元 数 相等 ， 用 调整 权重 系数 政和 侦 置 和 的 
访 和 8b 作 为 解码 器 的 参数 进行 计算 。 这 样 就 实现 了 训练 数据 复 现 的 处 理 。 

但 是 ， 如 果 中 间 层 的 单元 数 与 输入 层 和 输出 层 的 单元 数 相等 ， 或 者 
WV = 了 (单位 矩阵 )， 从 输入 到 输出 就 变 成 了 恒 等 映 射 ， 不 能 实现 “用 较 
少 的 特征 表达 原始 数据 ”的 目的 。 所 以 中 间 层 的 单元 数 要 少 于 输入 层 的 单 
元 数 。 这 里 能 够 使 误差 函数 减 到 最 小 的 所 和 诊 在 本 质 上 与 没有 标记 数据 
的 主 成 分 分 析 相 同 。 






























































Xx(X) 
(x)= 7AD+D) = FW Wx+ D+D 





自 编码 器 


潮 稀 玻 编 码 


对 人 类 、 猴 子 或 犹 等 生物 体 的 研究 实验 表明 ， 视 觉 信息 由 过 滤器 筛选 
后 会 传递 到 大 脑 皮层 特定 的 视觉 发 生 区 ， 从 而 被 大 脑 识别 。 

如 果 一 个 向 量 或 矩阵 中 大 多 数 元 素 为 0， 我 们 则 把 它 叫 作 稀 琉 向 量 或 
稀 下 矩阵 。 例 如， 在 把 图 像 作 为 网 络 的 输入 时 ， 我 们 可 以 通过 添加 正则 化 
项 来 得 到 图 像 的 稀 琉 表示 ， 从 而 在 计算 图 像 的 特征 向 量 ( 基底 ) (参照 





DB ) 时 能 够 确认 大 脑 初级 视觉 皮层 的 局 部 性 、 方 位 选择 性 和 空间 频率 
选择 性 的 状态 。 由 此 得 到 一 种 假说 ， 即 大 脑 中 存在 一 种 机 制 ， 能 够 通过 少 
量 神经 元 来 表达 复杂 的 外 部 环境 信息 。 这 种 机 制 称 为 稀 芒 编码。 

在 对 稀 琉 数据 进行 分 析 时 ， 我 们 需要 搜索 向 量 或 矩阵 中 非 零 元 素 的 位 
置 和 数值 ， 这 就 是 计算 量 庞大 的 NP-hard 问题 。 但 是 ， 如 果 数 据 的 特征 能 
够 稀 玻 表示 ， 我 们 束 会 得 到 一 种 有 效 的 特征 提取 和 数据 压缩 的 方法 。 

在 深度 学 习 中 ， 一 个 复杂 的 输出 结果 也 能 对 应 神经 网 络 内 部 简单 的 特 
征 表达 。 这 是 因为 将 绝 大 多 数 元 素 设 为 0， 让 有 效 特征 变 得 稀 玻 ， 能 够 大 
幅 提 高 模型 的 泛 化 能 力 和 预测 计算 效率 。 稀 琉 编码 在 以 深度 学 习 为 代表 的 
机 融 学 习 领 域 占据 着 重要 的 地 位 。 


TE 基 庆 


基底 就 是 主 成 分 分 析 中 表达 数据 的 特征 向 量 。 主 成 分 分 析 通 过 正 交 基底 来 分 
解 和 矩阵 ， 并 得 到 表达 数据 的 特征 值 。 























































































































只 神经 网 络 





下 面 来 介绍 卷 积 神经 网 络 。 


要 点 、 6 卷 积 操作 
包 卷 积 神经 网 络 的 结构 





强 卷 积 操作 


卷 积 神经 网 络 的 英文 缩写 CNN 中 的 C 表示 卷 积 。 卷 积 是 一 种 运算 ， 
两 个 函数 的 卷 积 运算 就 是 一 个 函数 的 元 素 与 男 一 个 函数 的 元 素 对 应 相 乘 再 
求 和 。 一 些 功能 丰富 的 图 像 编辑 软件 也 支持 卷 积 操作 ， 通 过 指定 矩阵 形式 
的 参数 就 可 以 编辑 像素 值 。 

卷 积 操作 可 以 在 图 像 上 实现 平滑 、 边 缘 提 取 和 浮雕 等 效果 ( )s 

















回回 加 回回 
加 四 四 四 四 
加 四 四 四 四 











平滑 滤波 锐 化 滤波 ( 反 锐 化 掩 模 ) 





卷 积 滤波 器 的 示例 


济 卷 积 神经 网 络 的 结构 




















卷 积 神经 网 络 主要 由 四 种 类 型 的 层 组 成 。 它 的 卷 积 层 和 池 化 层 对 一 个 
输入 图 像 进行 特征 提取 后 ， 输 出 图 像 的 特征 映射 图 就 形成 了 ( )。 








有 时 ， 卷 积 层 和 池 化 层 之 间 还 会 加 上 一 个 归 一 化 层 。 归 一 化 层 对 卷 积 
层 处 理 过 的 图 像 进 行 减 法 归 一 化 ， 使 整体 像素 的 平均 值 为 0, 或 者 进行 
除法 归 一 化 来 统一 方差 。 这 些 层 可 以 反复 排列 ， 最 后 经 过 全 连接 层 ( 参照 
DR ) 输出 结果 。 

如 果 和 希望 得 到 带 有 对 象 名 称 的 分 类 结果 或 识别 结果 ,可 以 使 用 
Softmax 函数 为 每 个 标签 设置 一 个 概率 ， 再 让 所 有 标签 的 概率 之 和 等 于 1， 
这 样 就 用 能 概率 来 表示 结果 了 。 


































































































卷 积 神经 网 络 的 结构 


| ”小 册 二 | 卷 积 神经 网 络 中 的 全 连接 层 


2016 年 出 现 了 使 用 Network In Network ( NIN ) 来 代替 全 连接 层 的 做 法 ， 这 
种 做 法 已 成 为 当前 的 主流 做 法 。 





















































卷 积 处 理 和 滤波 处 理 一 样 左 ), 但 是 通过 卷 积 处 理 得 到 的 特 
征 映射 图 的 尺寸 会 小 于 输入 图 像 的 尺寸 ， 缩 小 的 尺寸 与 卷 积 核 大 小 有 关 。 
为 了 得 到 和 原始 输入 图 像 大 小 相同 的 特征 映射 图 ， 我 们 可 以 先 对 输入 图 像 
进行 填充 ( padding ) 处 理 ， 再 进行 卷 积 操作 。 

填充 是 指 用 0 填充 输入 图 像 边 界 ， 或 根据 图 像 设 定 相 应 的 数值 ， 并 把 
得 到 的 特征 映射 图 用 激活 函数 激活 后 传递 给 池 化 层 ( 右 )。 
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选取 3 x 3 和 珑 隔 


























激活 函数 
~ 




















一 他 

















征 映射 池 化 操作 
使 用 2 x 2 区 域 得 到 新 


























































































































































































































池 化 层 





特征 映射 图 和 池 化 层 














池 化 层 的 作用 是 缩小 特征 映射 图 的 尺寸 。 这 一 步 虽然 不 是 必须 执行 的 
操作 ， 但 压缩 特征 映射 图 的 尺寸 有 助 于 降低 后 续 网 络 处 理 的 负载 ， 特 别 是 
在 物体 识别 中 发 挥 了 很 大 的 作用 。 

对 于 选 定 区 域 的 像素 值 ， 我 们 可 以 使 用 平均 池 化 、 最 大 池 化 、Lp 池 
化 等 方法 进行 池 化 操作 。Lp 池 化 是 通过 突出 图 像 区 域 的 中 央 值 来 计算 新 
的 特征 映射 图 的 方法 。 
打开 图 灵 社 区 本 书 主页 相关 文章 中 相应 章节 的 链接 ， 我 们 可 以 看 到 对 
图 像 中 的 数字 进行 识别 的 整个 过 程 。 

在 2012 年 的 ImageNet 竞赛 中 ， 加 拿 大 多 伦 多 大 学 开发 的 AlexNet 网 
络 使 用 卷 积 神经 网 络 进行 图 像 识 别 ， 在 图 像 分 类 任务 中 取得 了 优异 的 成 
绩 ， 其 分 类 准确 度 远 远 超过 当时 基于 特征 提取 的 方法 。Google 开发 的 
GoogLeNet 获得 了 2014 年 ImageNet 竞赛 的 冠军 。 微 软 人 研究 院 推 出 的 
ResNet ( deep residual learning， 深 度 残 差 学 习 ) 获得 了 2015 年 ImageNet 
竞赛 的 冠军 。 

上 述 网 络 都 采用 了 卷 积 神经 网 络 的 结构 ， 而 GoogLeNet 中 移 除了 全 
连接 层 ， 随 后 不 含 全 连接 层 的 卷 积 神经 网 络 逐 渐 成 了 常规 形式 。 
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循环 神经 网 络 


下 面 来 介绍 循环 神经 网 络 。 


要 点 、 6 循环 神经 网 络 的 结构 
包 长 短期 记忆 网 络 














纪 循环 神经 网 络 的 结构 





循环 神经 网 络 的 输出 值 受 前 面 历次 输入 值 的 影响 ， 所 以 可 以 用 来 学 习 























前 后 具有 关联 关系 的 时 间 序 列 数据 。 目 前 循环 神经 网 络 已 被 应 用 在 语音 
自然 语言 等 波形 数据 的 学 习 上 。 男 外 ,递归 神 经 网 络 ( Recursive Neural 
Network ) 的 缩写 也 是 RNN， 但 这 是 两 种 不 同 的 神经 网 络 。 

与 卷 积 神经 网 络 中 的 权重 系数 相对 应 ， 循 环 神经 网 络 中 有 两 种 线性 算 
子 丈 和 万 。 循 环 神经 网 络 的 特征 是 利用 带 反馈 回路 互 的 中 间 层 来 构建 循 
环 网 络 。 

上 图 是 用 网 络 来 表示 时 间 序 列 数据 的 图 示 。 

在 各 个 时 刻 :， 网 络 都 有 一 个 输入 x 和 与 之 相对 应 的 输出 y，h 是 时 刻 
1 的 中 间 层 输入 。 

神经 网 络 的 输入 值 是 x, 和 有 h,,， 输 出 值 是 h, 和 yy,。 从 理论 上 来 说 ，h， 
受到 前 面 所 有 输入 值 x 的 影响 。 

在 hh, 和 yy 的 计算 公式 中 ，Pbjy 和 by 分 别 表示 五 和 到 的 偏 置 , f 为 激 
活 函数 ，* 为 激活 函数 或 Softmax 函数 。 梳 理 整 个 过 程 可 以 得 到 如 加 四 本 加 
下 图 所 示 的 网 络 结构 。 
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y1 yz y3 ya 3 Vi+1 
按时 间 轴 展开 的 循 月 
环 神 经 网 络 jo hy hz hs a Ma he heri 
Wm 
X1 X2 Xs Xa Xe 


Xet+1 


he yt 


梳理 上 述 过 程 后 得 hi = f (Wixe + Hhe1 + by) 
到 的 循环 神经 网 络 yt = s(Wahe + bw) 
的 概念 














循环 神经 网 络 的 结构 


循环 神经 网 络 的 学 习 过 程 采 用 了 随机 梯度 下 降 法 ， 利 用 RTRL (Real 
Time Recurrent Learning， 实 时 递归 学 习 算 法 ) 或 BPTT ( Back Propagation 
Through Time， 基 于 时 间 的 反 向 传播 算法 ) 来 更 新 网 络 权重 。 

BPTT 算法 是 反 向 传播 算法 的 一 个 简单 变 体 ， 更 新 权重 时 能 够 反馈 前 
面 的 信息 。 但 是 ， 如 果 要 计算 的 节点 距离 太 远 ， 就 可 能 会 出 现 梯 度 消 失 问 
题 ， 增 加 网 络 学 习 难 度 。 

另外 ， 还 有 多 层 的 深层 循环 神经 网 络 (Deep RNN ) 和 双向 循环 神经 
网 络 ( Bidirectional RNN ) 等 循环 神经 网 络 的 变 体 ( . 




















竺 环 神经 网 络 双向 循环 神经 网 络 深度 双向 循环 神经 网 络 





深层 循环 神经 网 络 和 双向 循环 神经 网 络 


冤 长 短期 记忆 网 络 





循环 神经 网 络 在 计算 距离 较 远 的 节点 时 ， 可 能 会 出 现 梯度 消失 问题 ， 
导致 网 络 无 法 完成 学 习 。 我 们 可 以 采用 长 短期 记忆 网 络 (Long Short-Term 
memory，LSTM ) 来 解决 这 个 问题 ( BE ), 

在 长 短期 记忆 网 络 中 ，LSTM 重复 模块 的 存储 单元 代替 了 循环 神经 网 
络 中 间 层 的 单元 。 长 短期 记忆 网 络 的 重复 模块 共 包含 三 个 门 结构 ， 它 们 分 
别 是 输入 门 、 遗 忘 门 和 输出 门 。 遗 忘 门 会 参照 存储 单元 中 保存 的 前 一 个 时 
间 步 又 的 状态 〈 元 素 积 ) (参照 g 加 量 昌 )， 相 应 地 打开 和 关闭 输入 门 与 遗忘 
门 ， 从 而 调整 输出 。 


























长 短期 记忆 网 络 的 结构 


| 小 由 二 元 素 积 ( 蛤 达 玛 积 


哈达 玛 积 指 将 两 个 矩阵 中 相同 位 置 
的 元 素 相 乘 的 运算 。 





五 学 
了 人 的 模式 














机 器 学 习 在 模式 识别 中 的 常见 应 用 示例 包括 图 像 识别 和 语 

音 识别 。 这 些 识别 技术 研究 历史 悠久， 数学 分 析 在 其 中 也 

发 挥 了 重要 作用 。 因 此 在 本 章 的 前 半 部 分 ， 笔 者 会 先 介绍 

傅 里 叶 变换 等 数据 表达 形式 的 变换 方法 。 本 章 除了 会 介绍 

基于 数学 分 析 的 传统 机 器 学 习 方 法 和 近期 备 受 瞩 目的 深度 
学 习 方法 ， 还 会 介绍 图 片 风格 转换 等 应 用 示例 。 
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| 





下 面 来 介绍 典型 的 模式 识别 构建 方法 。 





要 点 、 6@ 基于 传统 机 器 学 习 的 方法 
名 基于 深度 学 习 的 方法 











营 模式 识别 

通过 前 面 几 章 的 讲解 ， 大 家 应 该 已 经 了 解 到 通过 有 监督 学 习 ， 机 器 能 
够 根据 标记 数据 进行 学 习 ， 并 预测 未 知 数据 和 输出 结 

图 像 数 据 和 声音 数据 的 模式 识别 其 实 就 是 从 数据 中 提取 特定 的 模式 进 
行 比 对 。 这 就 是 模式 识别 程序 所 做 的 工作 。 模 式 识别 程序 的 构建 方法 包括 
历史 悠久 的 基于 传统 机 器 学 习 的 构建 方法 和 近年 来 逐渐 开始 被 广泛 使 用 的 
基于 深度 学 习 的 构建 方法 ( 轿 EUBI )。 
































传统 的 模式 识别 


模型 研究 一 > | ，， a 
- 击 六 数据 ” 。 特征 提取 < 一 | 特征 人 《一 >》 识别 结果 
< 少量 一 大 量 > < 分 类 器 > 


学 习 的 模式 识别 





由 、| -一 一 > 7 下 起 一 人 > Oo 
网 络 设计 特征 提取 特征 值 | 人 >》 识别 结果 
输入 数据 


< 大量 > < 分 类 器 > 





模式 识别 程序 的 构建 方法 








基于 传统 机 融 学 习 的 模式 识别 中 有 很 多 种 特征 提取 的 方法 ,我 们 从 中 
选取 最 有 效 的 方法 来 构建 模型 ， 然 后 把 得 到 的 特征 值 信息 送 到 分 类 器 
行 分 类 。 这 就 是 传统 的 模式 识别 程序 











进 
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而 在 基于 深度 学 习 的 模式 识别 中 ， 网 络 的 设计 就 相当 于 构建 模型 的 过 
程 。 深 度 学 习 会 根据 设计 好 的 神经 网 络 自动 提取 特征 ， 并 把 得 到 的 特征 值 
户 息 送 到 分 类 絮 中 进行 分 类 。 

与 基于 传统 机 器 学 习 的 模式 识别 相 比 ， 在 特征 提取 方面 ， 基 于 深度 学 
习 的 模式 识别 还 要 在 设计 网 络 时 通过 不 断 试 错 来 对 参数 进行 调整 。 另 外 ， 
由 于 很 难 探 察 到 深度 学 习 中 的 神经 网 络 是 如 何 发 挥 作用 的 ， 所 以 在 出 现 意 
料 之 外 的 学 习 结 果 时 ， 我 们 很 难 找到 原因 。 从 这 一 点 来 看 ， 基 于 深度 学 习 
的 模式 识别 要 难于 基于 传统 机 器 学 习 的 模式 识别 。 

但 是 ， 得 益 于 大 量 开源 的 深度 学 习 网 络 模型 ， 我 们 可 以 借助 迁移 学 习 
技术 ， 直 接 使 用 现 有 的 网 络 模型 对 识别 对 象 进行 分 类 。 这 也 是 深度 学 习 在 
图 像 识别 领域 的 一 项 优势 。 























| 
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特征 提取 方法 





下 面 来 介绍 特征 提取 。 


要 点 、 6 特征 提取 














名 基于 传统 数学 分 析 的 特征 提取 
名 全 里 叶 变 换 
名 小 波 变换 











名 基于 和 矩阵 分 解 的 特征 提取 














营 基于 传统 数学 分 析 的 特征 提取 


传统 的 特征 提取 方法 以 数学 分 析 为 基础 ， 比 较 常 见 的 是 泰勒 展开 
( Taylor expansion )。 泰 勒 展开 是 用 函数 的 导数 值 作 为 系数 ， 构 建 一 个 多 项 
式 来 近似 表达 这 个 函数 的 方法 。 用 表示 的 无 限 项 连 加 式 称 为 级 数 ( 这 里 
是 泰勒 级 数 ) ( 医 和 贺 )， f/f" 表示 也 数 1 的 n 阶 导 数 。 在 泰勒 展开 中 ， 我 
们 在 余 项 a 上 近似 表达 函数 f。 当 a=0 时， 泰勒 展开 就 会 变 成 麦克 劳 林 展 
开 (Maclaurin expansion ) ( )。 像 主 成 分 分 析 一 样 ， 泰 勒 展开 相当 
于 将 一 个 数据 〈 函数 ) 拆 分 成 多 个 组 成 部 分 ( 函数 ) 表示 。 




















泰勒 展开 式 





麦克 劳 林 展开 式 
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一 些 函 数 的 麦克 劳 林 展开 式 如 医 融 0 琶 | 所 示 。 


n=0 nl! 


(+x)” 3 


n=0 


sinx= >》， Wt) Re 
"(2n+D)! 


( 1 2n 
COSX= > Gr 


B n (—4) "(1 4") 2n+l 
tanx = > 0 
n=0 . 


A 1 二 /n+l 
x|<—,B, =1,B, = 一 B 
[ | 0 二 中 本 9 


麦克 劳 林 展 开 式 的 示例 











这 里 的 | |* 寺 项 式 系数 (EU )，2 为 伯 努 利 数 。 个 级 数 展 
开 式 中 ,在 趋 近 于 无 穷 大 时 截断 计算 就 能 得 到 一 = 例如 ，1.05 
的 10 次 方 等 于 1.6288946...， 我 们 可 以 通过 (1+0.05)" 二 1+10x0.05+45x 
0.052=1.6125 求 出 近似 值 。 


ny nl! 
天) kln-A)! 


二 项 式 系 数 的 公式 











8 傅 里 叶 变 换 








下 面 我 们 考虑 用 三 角 函 数 来 近似 描述 一 个 函数 。 假 设 函 数 为 周期 函 











数 ， 同 时 也 是 一 个 实 值 函 数 。 当 周期 为 2x 时 ， 该 函数 可 以 由 余 弱 函数 
(cos ) 和 正 弱 函数 (sin ) 的 线性 组 合 表示 ， 上 有 具体 如 医 划 [RE3 所 示 。 











224 | 图 解 人 工 智能 

















太志 eT f(t)cosnitdt 
T = 


本 三 7Osinmd' 
NT" 


/ (7)= 4 >», cosnx +b, sinnx) 


n=1 





傅 里 时 级 数 展 开 式 


有 人 可 能 会 质疑 为 什么 突然 增加 了 周期 函数 这 一 限制 ， 这 是 因为 语音 
信号 和 电子 信号 都 可 以 看 成 具有 周期 性 的 波 。 即 使 是 不 具有 周期 性 的 图 像 
也 可 以 看 作 具 有 周期 性 。 

利用 含有 虚数 单位 i 的 复数 和 欧 拉 公式 可 以 简化 三 角 函 数 ( )， 
即将 三 角 函 数 由 以 w 和 饭 为 系数 的 傅 里 叶 级 数 展开 , 变 成 以 c, 为 系数 的 
傅 里 叶 级 数 展开 ( )s 


e =cosO+isin0 


欧 拉 公 式 




















1 nx i 
6, = 一 De™dt 
:| 70 





傅 里 时 级 数 展开 的 复数 形式 


接 下 来 将 函数 的 周期 2r 改 为 7，c, 改 为 WT。 通 过 这 种 方式 得 到 的 书 
称 为 函数 了 的 傅 里 叶 变换 ( WB )， 当 前 使 用 的 傅 里 叶 变换 计算 ， 主 要 
是 通过 离散 傅 里 叶 变 换 ( Discrete Fourier Transform，DFT ) 中 的 快速 传 里 
叶 变 换 ( Fast Fourier Transform，FFT ) 实现 的 。 
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qa, =F(n/7T)= | 


eT f(x)dx 


Ti 


f(x)= zlim 3 F(n/T)es™7 


n=—m 





傅 里 时 变换 的 公式 


那么 ， 傅 里 叶 变 换 的 作用 是 什么 呢 ? 简 而 言 之 ， 傅 里 叶 变 换 是 把 时 间 
An 另外 ， 时 间 与 频率 的 关系 函数 又 
能 恢复 为 时 间 与 振幅 的 关系 函数 ， 这 叫 作 传 里 叶 逆 变换 ( 国 EUSU )， 传 
里 叶 变 换 时 的 频 域 称 为 频谱 ， 将 信号 变换 至 频 域 加 以 分 析 的 方法 称 为 频谱 
分 析 ( spectral analysis )。 

















傅 呈 : 
时 间 


傅 里 叶 逆 变 换 




















傅 里 时 变换 和 傅 里 时 逆 变 换 


当 ftx)、g(x)、h(x) 表示 原 函 a、b 表示 复数 ，F(s)、G(s)、H(s) 分 
别 表示 f、g、h 的 傅 里 叶 变 换 时 ， 轿 名 于 中 的 内 容 成 立 。 




















h(x)=af (x)+bg(x) > H(s)=aF(s)+bG(s) 
Hz) = f(x-%) SH(s)=e "PF(s) 


站 


h(x)=e"™ f(x) SH(s)=F(s— so) 





Ss 


HW)= fe) A)= 一 
a 


ho0 = 0 SH(s)=F(-s) 


NOO=(1*S)O0 全 已 C)=FC)CC) 





傅 里 时 变换 的 性 质 








傅 里 叶 变换 能 够 将 一 个 周期 为 了 的 函数 表示 成 三 角 函 数 的 线性 组 合 ， 
其 中 包括 表示 信号 舒缓 变化 的 低频 函数 和 表示 信号 剧烈 变化 的 高 频 函 数 。 

利用 传 里 叶 变换 的 这 个 特点 可 以 实现 滤波 的 功能 。 滤 波 器 主要 包括 低 
通 滤波 器 、 高 通 滤波 器 和 带 通 滤波 器 三 种 ， 这 些 滤 波 器 只 允许 特定 频段 的 
波 通过 ， 会 屏蔽 其 他 频段 的 波 。 

这 与 图 像 的 卷 积 滤波 器 的 原理 相似 。 对 一 个 函数 进行 傅 里 叶 变 换 后 ， 
再 进行 傅 里 叶 逆 变换 去 除 低频 带 的 噪声 ， 就 能 去 除 语音 信号 中 的 低音 区 。 
在 图 像 中 应 用 这 个 处 理 可 以 达到 边缘 增强 的 效果 。 

这 些 处 理 之 所 以 这 人 么 简单 ， 是 因为 传 里 叶 变 换 能 够 简化 卷 积 运算 。 具 
体 来 说 ， 就 是 复杂 的 卷 积 运算 被 简化 为 乘积 运算 〈[ 攻 和 0 司 册 )。 


(f #2)0)=| Oo)gC-)d 


卷 积 运算 的 计算 公式 

















除了 图 像 和 语音 信号 ， 傅 里 叶 变 换 还 可 用 于 电子 信号 、 生 物 信号 、X 
射线 晶体 结构 分 析 ， 以 及 射电 望远镜 ( 数码 频谱 仪 ) 获得 的 各 种 信和 号 的 预 
处 理 、 分 析 和 转换 。 另 外， 为 了 使 傅 里 叶 变 换 更 好 地 应 用 于 控制 系统 和 工 











四 复 共 斩 :c=a+ 夺 的 复 共 斩 为 E=a+Di。 
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程 学 ， 人 们 又 提出 了 拉 善 拉 斯 变换 和 2Z 变换 。 
另外 ， 在 进行 信号 分 析 时 ， 小 波 变换 ( Wavelet Transform, WT) 比 
傅 里 叶 变 换 的 优势 更 加 明显 。 所 以 现在 主要 使 用 小 波 变换 进行 信号 分 析 。 


与 基于 三 角 函 数 线性 组 合 的 传 里 叶 变 换 不 同 ， 小 波 变 换 是 基于 小 波 基 
函数 进行 的 变换 。 

用 多 个 小 波 的 伸缩 和 平移 的 线性 组 合 来 拟 合 目标 函数 ( 波形 数据 )， 
这 种 变换 称 为 小 波 变 换 。 

小 波 变换 中 的 每 个 小 波 都 可 以 构成 规范 正 交 系 。 小 波 变换 中 的 小 波 称 为 
小 波 函 数 (CD) ， 有 些小 波 函 数 会 与 尺度 函数 (2) 成 对 使 用 ( 医生 )- 

































































小 波 函 数 的 示例 





小 波 变换 主要 包括 连续 小 波 变 换 ( Continuous Wavelet Transform ， 
CWT ) 和 离散 小 波 变换 ( Discrete Wavelet Transform，DWT )。 图 像 处 理 中 
使 用 的 是 离散 小 波 变换 。 

小 波 函 数 由 小 波 组 成 ， 小 波 包括 母 小 波 (mother wavelet ) 和 支撑 母 
小 波 的 父 小 波 ( father wavelet )。 

连续 小 波 变换 中 使 用 的 母 小 波 包括 Meyer 小 波 函 数 、Morlet 小 波 函 数 
和 墅 西 哥 由 函数 ， 离 散 小 波 变换 中 使 用 的 母 小 波 包 括 哈 尔 小 波 函 数 和 
Daubechies 小 波 函 数 等 。 
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Morlet 小 波 函数 和 Gabor 小 波 函 数 一 样 可 以 作为 基 图 像 滤波 器 使 用 ， 
通过 模仿 人 类 视觉 系统 来 进行 虹膜 识别 、 指 纹 识别 和 物体 定位 。 

基于 离散 小 波 变 换 的 分 析 可 用 于 图 像 处 理 及 压缩 等 多 种 场景 。 特 别 是 
在 图 像 中 ,三 维 小 波 变换 (国生 0 局 四 ) 比较 常用 。 二 维 小 波 变换 将 图 像 分 
成 两 部 分 ， 左 下 角 为 低频 分 量 ， 右 上 角 为 高 频 分 量 。 这 有 助 于 提高 图 像 的 
压缩 效率 。 通 过 道 变 换 ， 图 像 能 实现 还 原 。 
































对 图 像 进 行 二 维 小 波 变换 后 ， 

高 频 分 量 ( 图 像 边缘 ) 会 聚集 
到 右上 角 ， 低 频 分 量 ( 图 像 背 
景 ) 会 聚集 到 左下 角 






































基于 二 维 小 波 变 换 的 图 像 变换 





图 像 压 缩 使 用 JPEG 2000 标准 。JPEG 压缩 标准 采用 的 是 离散 余弦 变 
换 ， 图 像 会 被 分 为 8x8 的 像素 块 ， 产 生 分 块 效应 ， 而 JPEG 2000 标准 能 
克服 这 一 缺点 ， 并 且 支 持 无 损 压 缩 。 
傅 里 叶 变换 中 所 有 频段 的 时 间 分 辩 率 都 相同 ， 而 小 波 变换 可 对 不 同 
频段 的 时 间 分 辨 率 进 行 调 节 。 在 高 频 的 情况 下 ， 小 波 变换 的 时 间 分 辩 率 
在 离散 小 波 变 换 中 ,利用 了 这 个 特性 的 分 析 方 法 称 为 多 分 辩 率 分 析 。 
除了 本 章 介绍 的 语音 数据 ， 傅 里 叶 变换 和 小 波 变换 还 常用 于 脑 电波 、 
肌 电 位 和 心电图 等 波形 数据 的 处 理 。 
小 波 分 析 程 序 包括 R 语言 包 wavethresh 。 
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沁 基于 和 矩阵 分 解 的 特征 提取 

除了 傅 里 叶 变 换 和 小 波 变换 ， 我 们 还 可 以 使 用 主 成 分 分 析 等 方法 进行 特 
征 提 取 。 除 主 成 分 分 析 之 外 ， 和 矩阵 分 解 还 包括 独立 成 分 分 析 、 非 负 和 矩阵 分 
解 (Nonnegative Matrix Factorization，NMEF ) 和 稀 琉 编码 等 ( 四 )- 


























主 成 分 分 析 非 负 和 矩阵 分 解 


m=d n m m=d 
行 了 
非 负 非 负 


列 正 交 


Mm 稀疏 编码 


, 


正则 分 解 ”各 行 独立 、 非 轨 一 化 





和 矩阵 分 解 的 种 类 
摘自 《计算 机 视觉 前 端 技术 指南 6 一 一 CVIM 系列 教程 六 第 3 章 第 69 页 








非 负 和 矩阵 分 解 是 将 非 负 的 大 和 矩阵 分 解 成 两 个 非 负 的 小 矩阵。 因此 ， 基 
于 非 负 和 矩阵 分 解 提 取 的 特征 与 基于 主 成 分 分 析 提 取 的 特征 并 不 相同 。 

例如 ， 基 于 主 成 分 分 析 的 人 脸 特 征 提取 是 按照 人 脸 特 征 值 的 大 小 来 提 
取 特 征 的 ， 而 基于 非 负 和 矩阵 分 解 的 特征 提取 是 按照 人 脸 各 组 成 部 分 的 位 置 
来 提取 特征 的 。 后 者 利用 了 人 脸 图 像 中 每 个 像素 的 值 大 于 等 于 0 ( 非 负 值 ) 
的 特性 。 





























中 原 书 名 为 『 了 > 已 工 一 夕 忆 汶 汪 > 最 先端 力 人 1 下 6 一 CVIM 拖 2 一 1 了 儿 
JJ 一 入 一 外 暂 无 中 文 版 。 译 者 注 
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识别 


下 面 来 介绍 图 像 识 别 。 








要 点 、@ 计算 机 视觉 

@ 基于 图 像 处 理 的 识 另 
名 基于 深度 学 习 的 识别 方法 
名 基于 特征 提取 的 图 像 变换 



























































汤 计算 机 视觉 
图 像 由 像素 组 成 ， 每 个 像素 都 被 分 配 了 像素 值 。 机 器 接收 到 图 像 摄取 装 
置 的 输入 数据 后 ， 如 何 进行 图 像 处 理 以 理解 图 像 ， 对 此 进行 研究 的 领域 就 
是 计算 机 视觉 。 人 工 智能 致力 于 识别 和 理解 静态 图 像 和 动态 图 像 ( 视频 )。 
所 以 ， 计 算 机 视觉 的 研究 包括 物体 的 识别 和 检测 、 文 字 的 识别 和 检测 、 
利用 阴影 构建 三 维 模型 (三维 恢 复 )、 为 图 像 生成 文本 描述 ， 以 及 视频 场 
景 推测 ( 视频 理解 ) 等 ， 这 些 内 容 与 图 像 处 理 和 图 像 识 别 技术 密切 相关 。 
在 图 像 识别 领域 , 目前 国际 上 常用 的 图 像 数 据 库 包 括 ImageNet、 
MNIST、CIFAR-10 等 。 

























































































汤 基于 图 像 处 理 的 图 像 识别 方法 
我 们 可 以 使 用 矩阵 特征 中 的 Haar-Like 特征 来 进行 人 脸 识别 和 物体 识 























别 ( 国 mW 中 )。 使 用 AdaBoost 算法 把 矩形 特征 作为 弱 分 类 器 ， 构 建 一 个 
强 分 类 顺 。 
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Haar-Like 特征 的 种 类 
上 边缘 特征 线性 特征 
荫 特 和 


( Haar-Like 特征 ) 国 OS 面 面 站 加 








特征 值 





区 域 的 像素 值 之 和 区 域 的 像素 值 之 和 





中 心 特征 <> VD 
_ 矩形 特征 中 所 有 黑色。 抵 形 特征 中 所 有 白色 [四 | 人 4 人 





Haar-Like 特征 和 特征 值 的 计算 














设置 一 个 搜索 窗口 ， 特 征 值 就 等 于 矩形 中 所 有 黑色 区 域 的 像素 值 之 和 
减 去 白色 区 域 的 像素 值 之 和 。 

我 们 让 人 脸 进 入 搜索 窗口 ， 并 计算 特征 值 ， 这 样 就 能 得 到 一 个 人 脸 识 
别 分 类 器 。 另 外 ， 还 可 以 在 搜索 窗口 内 设置 子 窗口 来 进行 小 范围 检测 。 
OpenCV ( Open Source Computer Vision Library ) ( 参照 JE 和 ) 中 使 用 了 
这 种 检测 方法 ， 这 种 方法 称 为 Viola-Jones 人 脸 检 测 方法 。 


| “小 巾 二 | OpenCV 


SS OpenCyvV， 大 家 可 以 参考 OpenCV 官网 中 的 内 容 。 












































另外 ， 有 一 种 计算 特征 的 方法 叫 作 HOG (Histograms of Oriented 
Gradients， 方 向 梯度 直方 图 ) 特征 。 它 会 把 样本 图 像 分 成 多 个 像素 的 单元 
(cell )， 再 根据 一 个 像素 及 其 相 邻 8 个 像素 的 灰 度 值 ， 在 单元 内 对 所 有 像 
素 的 梯度 方向 和 强度 进行 直方 图 统计 ， 然 后 将 多 个 单元 组 成 一 个 大 的 块 
(block )， 在 块 内 归 一 化 梯度 直方 图 ， 从 而 得 到 整个 窗口 的 特征 。HOG 特 
征 主要 用 于 行人 检测 以 及 运动 行人 检测 。 



























































电 基于 深度 学 习 的 识别 方法 








在 图 像 识别 领域 ， 神 经 网 络 主要 用 于 图 像 处 理 ， 或 作为 一 种 图 像 预 处 
理 方法 来 增加 标记 数据 集中 的 图 像 变 体 。 

我 们 主要 使 用 神经 网 络 中 的 卷 积 神经 网 络 及 其 变 体 进行 图 像 处 理 。 深 
度 学 习 的 相关 章节 中 提 到 的 AlexNet、GoogLeNet 以 及 ResNet 等 网 络 在 
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ImageNet 竞赛 中 都 取得 了 优异 的 成 绩 。 

基于 机 器 学 习 和 深度 学 习 的 图 像 识别 已 经 从 对 单一 标签 的 识别 转 为 更 
复杂 和 更 详细 的 识别 。 例 如 ， 现 在 已 经 有 程序 能 够 从 一 张 照片 中 同时 识别 
多 个 目标 , 或 者 从 连 拍照 片 中 识别 出 三 维 或 四 维 的 图 像 和 视频 了 。 

区 域 卷 积 神经 网 络 R-CNN (region-based CNN ) "是 提取 区 域 后 再 进 
行 物体 识别 的 卷 积 神经 网 络 。R-CNN 相当 于 采用 传统 方法 进行 物体 识别 
时 使 用 的 区 域 分 割 方法 。 

另外 ， 我 们 还 可 以 使 用 BING (Binarized Normed Gradients for 
Objectness Estimation )、Geodesic K-means 或 Selective Search 等 程序 和 算 
法 来 估计 目标 区 域 并 提取 候选 区 域 。 

提取 候选 区 域 属 于 预 处 理 ， 所 以 在 使 用 卷 积 神经 网 络 进行 训练 时 还 需 
要 调整 图 像 尺 寸 。 对 卷 积 神经 网 络 进行 改进 后 ， 我 们 就 能 得 到 Fast 
R-CNN” 和 Faster R-CNN”。 在 设计 卷 积 神经 网 络 等 神经 网 络 时 ,在 调整 参 
数 方 面 的 注意 事项 可 以 参考 Fast R-CNN 和 Faster R-CNN。 

男 外， 我 们 还 可 以 使 用 TensorFlow 中 的 试用 程序 ( TensorFlow Deep 
Playground )。 该 程序 能 够 将 训练 过 程 中 的 参数 可 视 化 ， 以 衡量 模型 的 泛 化 


台 b 
HB。 


泌 基于 特征 提取 的 图 像 变换 


卷 积 神经 网 络 除了 用 于 图 像 识 别 ， 还 可 以 用 于 实现 图 像 的 超 分 辩 率 。 
如 2015 年 发 布 的 waifu2x 在 日 本 国内 备 受 瞩目 (参照 四 于 于 日 )。 
超 分 辨 率 技术 能 够 将 一 幅 低 分 辩 率 图 像 扩 大 成 清晰 的 高 分 辩 率 图 像 。 
在 使 用 传统 的 图 像 放 大 算法 时 ， 像 素 会 被 直接 放大 。 虽 然 我 们 可 以 采用 抗 
锯齿 技术 进行 平滑 处 理 ， 缓 和 图 像 边缘 的 “锯齿 ”"， 但 还 是 会 感觉 图 像 不 
够 清晰 。 基 于 卷 积 神经 网 络 的 图 像 超 分 辨 率 方法 能 够 有 效 抑 制 模糊 ， 更 加 
自然 地 放大 图 像 。 
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中 可 在 GitHub 上 搜索 R-CNN : Regions with Convolutional Neural network Features 获取 
相关 信息 。 

@@ 可 在 GitHub 上 搜索 Fast R-CNN 获取 相关 信息 。 

@) 可 在 GitHub 上 搜索 Faster R-CNN (Python implementation) 获取 相关 信息 。 
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低 分 辨 家 区 全 > waifu2x 放 大 两 倍 























图 像 处 理 软件 放大 两 倍 
双 三 次 插值 的 补充 ) 

















使 用 waifu2x 得 到 的 超 分 辩 率 图 像 


样本 : ch10-waifu2x-sample.zip 





下 载 地 址 : 图 灵 社 区 本 书 主页 











可 以 说 当前 的 深度 学 习 热 潮 源 自 无 监督 学 习 的 深度 信念 网 络 。 除 深度 
信念 网 络 之 外 ， 还 有 一 种 无 监督 学 习 的 模型 一 一 GAN ( Generative Adversarial 
Networks， 生 成 对 抗 网 络 )。 

正如 Adversarial 这 个 词 所 表达 的 意思 一 样 ， 对 于 已 经 完成 的 分 类 器 ， 
输出 结果 的 概率 是 连续 型 概率 分 布 ， 所 以 基于 GAN 的 概率 生成 模型 可 以 
用 于 生成 自然 图 像 。 

将 GAN 与 卷 积 神经 网 络 组 合 起 来 可 以 得 到 深度 卷 积 对 抗 生 成 网 络 
( Deep Convolutional Generative Adversarial Networks，DCGAN )， 基 于 它 
来 生成 图 像 就 是 图 像 风格 转换 ( 参照 四 )。 


















































色 像 风格 医 





























二 如 ”图像 风格 转换 的 例子 
摘自 博客 《图 像 风 格 转换 算法 》” 











QD 原 博客 名 为 [ 画 风 在 变换 二 加 了 了 儿 了 了 1) 又 人 一 一 译 者 注 
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关于 图 像 风格 转换 的 研究 ， 日 本 早稻 田 大 学 的 石川 教授 及 其 团队 基于 
深度 神经 网 络 对 图 像 识 别 和 图 像 理 解 进行 了 人 研究， 公布 了 黑白 图 像 自 动 着 
色 以 及 将 图 像 自动 转换 为 素描 线 稿 等 技术 (图 EBD 、 )。 











HxW Luminance 
(Input image) 
















Colorization jw 
Mid-Level Features Network 27 


Network 








Low-Level 
Features 


HW 
Network Shared BE 了 
- 和 


Aid 全 一 Classification 的 


Network 


112x112 
56x56 28x28 














Global Features Network Breet 
给 黑白 图 像 着 色 的 深度 神经 网 络 
摘自 《利用 深度 网 络 进行 全 局 特征 和 局 部 特征 学 习 ， 为 黑白 图 像 自动 着 色 》 
























































Down-convolution 














利用 深度 神经 网 络 将 图 像 转换 为 素描 线 稿 




















摘自 《草稿 自动 变 线 稿 六 


和 现 有 的 线 稿 生 成 软件 相 比 ， 应 用 这 项 技术 生成 的 图 像 更 加 自然 ， 效 





( 原文 名 为 “Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors 
for Automatic Image Colorization with Simultaneous Classification”。 一 一 译 者 注 
@ 原文 名 为 “Sketch Simplification”。 译 者 注 
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果 更 胜 一 筹 ( )。 


人 ) Adobe Live Trace 


Adobe Line 
Tracer 




















线 稿 的 生成 结果 对 比 
摘 自 《草稿 自 动 变 线 稿 3 





Q 原文 名 为 “Sketch Simplification”。 





译 者 注 
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下 面 来 介绍 语音 识别 。 

















要 点 、 声音 的 信息 某 达 
包 语音 识别 系统 


名 语音 合成 








声音 是 靠 空气 振 动 传播 的 。 传 统 的 声音 记录 方式 是 将 声音 的 振动 刻 在 
唱片 表面 ， 现 在 我 们 可 以 使 用 电子 设备 来 保存 振动 的 波形 数据 。 所 以 ,使 
用 话 简 收集 声音 就 是 把 声音 的 振动 以 电子 数据 的 形式 保存 起 来 的 过 程 。 

声音 的 振动 可 以 视 为 随时 间 变 化 的 波形 数据 。 声 音 并 不 能 通过 一 次 振 
动 就 传 到 我 们 的 耳 中 。 把 声音 播放 时 间 细 化 后 ， 可 以 看 到 相同 形状 的 波 在 
连续 反复 地 出 现 (国生 0 区 琢 )， 声 音 的 大 小 取决 于 振幅 ， 声 音 的 高 低 取 决 










































































声音 数据 


为 了 读 取 、 写 入 和 分 析 声 音 数 据 ， 我 们 需要 一 个 能 够 处 理 波形 数据 的 
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程序 。 除 了 使 用 专门 的 创作 工具 或 分 析 软 件 ， 我们 还 可 以 使 用 R 语言 来 读 
取 声 音 数 据 。 














泥 语音 识别 的 方法 


我 们 每 个 人 发 出 的 声音 都 有 自己 独特 的 频率 。 传 里 叶 变换 可 以 让 我 们 
了 解 到 声音 的 振幅 频率 特性 。 从 时 域 中 截取 一 段 振幅 并 将 其 转化 为 频 域 
后 ， 会 出 现 多 个 峰值 ， 这 些 峰 值 称 为 共振 峰 。 从 低频 到 高 频 依次 称 为 第 一 
共振 峰 、 第 二 共振 峰 …… 在 日 语 中 ， 将 第 一 共振 峰 和 第 二 共振 峰 的 频率 结 
合 到 一 起 就 能 得 到 元 音 ” 音 素 ( 贡生 )。 




































































) 厂 频率 (kHz) 





频率 (kHz) 





共振 峰 和 音素 


摘自 《Interface》2016 年 6 月 刊 第 34 页 





带 振动 产生 的 声音 在 通过 声 道 ( 喉 吡 、 口 腔 等 ) 时 会 被 过 滤 ， 并 引 
气 的 振动 ， 直 至 传人 我 们 的 卫 中 。 
我 们 把 能 够 发 出 声音 的 声带 称 为 声 源 ， 声 源 与 滤波 器 结合 后 形成 声 
音 ， 这 种 发 声 机 理 也 叫 作 源 - 滤波 咒 模 型 ( 医事 2 )。 














中 图 10-23 中 的 加 (a)、Ws (i)、 了 (uu)、 之 (e)、 扫 (0 ), 汉语 元 音 的 共振 峰 图 可 
参考 人 民 邮 电 出 版 社 出 版 的 《图 解 语音 识别 》 2 章 图 2.15。 译 者 注 
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虐 波 器 模型 


声带 | 声 源 ( 脉冲 ) 信号 | 傅 里 叶 变 换 
(FFT) 、 | 声音 的 精细 结构 G( 
传 里 叶 变换 频谱 包 络 H(A 


语音 信号 (1) ns 变换 | 频率 特性 SN=GWEN 



































loglSCO| 


C(t) =|IFFT(log|H(D)) I+|IFFT(og|G(D)) 


频谱 包 络 的 傅 里 精细 结构 的 傅 里 
叶 逆 变换 叶 逆 变 换 

















基础 声学 模型 
摘自 《Interface》2016 年 6 月 刊 第 33 页 和 第 35 页 


























图 中 g(0) 为 声 源 信号 ，s(0D) 为 语音 信号 ， 源 - 滤波 器 模型 首先 分 离 畏 
音 和 元 音 的 波形 。 通 过 传 里 叶 变 换 ， 两 个 时 域 函 数 转换 为 频 域 函数 CG() 
和 S(K)， 假设 在 此 期 间 的 振动 变化 为 (Kk)， 使 用 滤波 器 五 对 输入 信号 G 
进行 滤波 就 能 得 到 结果 S。S 用 G 和 五 的 卷 积 表示 。 其 中 G 为 声音 的 精细 
结构 ， 太 为 频谱 包 络 ，5 为 频率 特性 ， 即 频谱 。 

5 经 过 对 数 运算 后 得 到 对 数 振幅 谱 ， 再 进行 傅 里 叶 首 变换 可 得 到 倒 谱 
C(D)， 这 称 为 倒 谱 特性 。 再 进一步 提取 低频 域 信 号 进行 傅 里 叶 变换 就 可 以 
得 到 共振 峰 。 

通过 这 种 方法 我 们 确定 了 共振 峰 和 音素 。 由 于 高 阶 倒 谱 的 峰值 对 应 
声带 振动 的 基本 频率 ， 所 以 高 阶 倒 谱 可 用 于 确定 音调 (声音 的 高 低 ) 
( ) 
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倒 谱 特性 频谱 包 络 信息 








4 ”频率 (kHz) 
提取 时 刻 0 附近 的 数 
据 ， 即 低频 域 的 数据 
进行 快速 傅 里 叶 变 换 


























[EL 倒 谱 和 频谱 包 络 
摘自 《Interface》2016 年 6 月 刊 第 35 页 


明 语音 识别 系统 








在 美国 国防 部 高 级 研究 计划 局 ( 简称 DARPA ) 的 支持 下 ， 从 1875 年 
至 1980 年 ， 研 发 人 员 ”开发 并 推出 了 语音 识别 系统 Hearsay-I。 
输入 语音 后 ， 语 音 识别 系统 能 够 从 语音 波形 中 提取 音节 和 单词 ， 最 终 














生成 问题 语句 发 给 数据 库 。 

Hearsay- 开 采用 了 黑板 模型 ， 每 个 音节 和 单词 的 提取 器 都 是 一 个 智能 
体 ， 它 们 会 交换 共享 内 存 上 的 数据 。 在 提取 音节 、 单 词 和 单词 串 时 ， 对 于 
不 能 唯一 确定 的 内 容 ， 可 以 保留 其 不 确定 性 并 作为 一 个 假说 留 给 下 一 个 智 
能 体 来 处 理 ( 车 )。 

通过 设计 检验 智能 体 (check agent )， 用 于 组 成 短语 结构 的 单词 可 以 
作为 假设 写 人 共享 内 存 中 。 我 们 为 每 个 假设 设 定 冰 值 (或 置信 水 平 )， 这 
样 一 来 ,在 假说 数量 增多 的 情况 下 也 能 根据 阔 值 设置 智能 体 的 启动 优先 
级 ， 提 高 处 理 效率 。 



























































中 由 卡 内 基 梅 隆 大 学 的 研发 人 员 开 发 。 





译 者 注 




















波形 输入 


ZW 一 下 瑟 王 下 























本本。 Hearsay-|| 的 流程 


当前 语音 识别 系统 的 模型 通常 由 声学 模型 和 语言 模型 两 部 分 组 成 。 

声学 模型 用 于 进行 音素 的 分 割 及 估计 。 有 具体 可 使 用 HMM ( 隐 马 尔 可 
夫 模 型 ) 和 多 层 神经 网 络 的 方法 。 

HMM 根据 时 序 的 状态 转移 概率 及 其 输出 概率 分 布 来 估计 音素 ， 使 
用 了 HMM 的 声学 模型 是 通过 GMM (Gaussian Mixture Model， 高 斯 
混合 模型 ) 来 确定 音素 的 ， 也 就 是 使 用 多 个 高 斯 概率 分 布 的 加 权 组 合 来 
表示 HMM 的 输出 概率 分 布 。 另 外 ， 基 于 决策 树 的 三 音素 模型 也 可 以 用 
来 确定 音素 ， 该 模型 会 根据 当前 音素 的 左 音素 和 右 音 素 信息 区 别 对 待 该 
音素 。 还 有 通过 波形 聚 类 分 析 得 到 自 组 织 特征 映射 并 以 此 来 确定 音素 等 
方法 。 

我 们 可 以 用 由 多 个 受 限 玻 尔 效 曼 机 堆 成 的 多 层 神经 网 络 或 深度 学 习 幸 
代 GMM。HMM 和 多 层 神经 网 络 结合 的 混合 模型 也 是 一 种 可 以 替代 GMM 
的 语音 模型 。 另 外 ， 研 究 人 员 还 开发 了 基于 循环 神经 网 络 的 语音 识别 系统 
( EVE ). 
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基于 HMM、GMM、 | op 
贝 叶 斯 估计 和 多 层 神经 | 声学 模型 
络 等 来 估计 音素 和 音 

素 序列 
































声学 模型 和 语言 模型 的 组 合 














在 语言 模型 中 ， 通 过 N-Gram 分 析 分 解 日 语句 子 ， 把 连续 出 现 的 共 现 
概率 数据 保存 起 来 。 然 后 使 用 语言 模型 ， 从 概率 角度 评估 声学 模型 提取 的 
单词 序列 在 语言 模型 中 排序 的 准确 性 ， 并 组 成 句子 。 

存储 语音 数据 和 文本 组 合 的 数据 库 称 为 语料库 ( 参照 gEE )。20 世 
纪 90 年 代 构 筑 的 SWITCHBOARD 就 是 一 个 电话 通话 录音 及 文字 转录 的 
语料库 ， 其 中 包含 了 500 多 位 通话 者 的 语音 和 300 多 万 个 单词 。 日 语 的 语 
料 库 中 涵盖 了 语音 资源 联盟 提供 的 各 种 数据 。 


和 语料库 
为 了 进行 自然 语言 处 理 ( natural language processing ) 研究 ， 研 究 人 员 大 规 
模 收集 词语 和 表达 数据 ， 并 把 语法 等 的 注释 一 起 存储 到 数据 库 中 ， 这 就 形成 了 语 
料 库 。 










































































语音 合成 (Text To Speech，TTS ) 是 人 工 合成 的 自然 语言 ， 最 初 的 语 

只 能 将 单字 语音 生硬 地 拼接 起 来 生成 句子 。 现 在 的 语音 合成 系统 经 
过 改进 后 ， 能 够 将 波形 数据 更 加 平滑 地 拼接 到 一 起 。 除 了 声音 质量 和 音调 
方面 的 改进 ， 一 些 新 开发 的 语音 合成 系统 还 能 像 配音 演员 一 样 表达 情绪 ， 
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例如 HOYA 服务 。 

2016 年 DeepMind 公司 发 布 的 研究 成 果 WaveNet 可 以 基于 连续 时 间 
系统 中 的 因果 系统 (causal system ) 通过 卷 积 神经 网 络 生成 语音 数据 ， 以 
此 来 合成 更 自然 的 语音 。 


加 


召 言 处 理 和 机 
习 























我 们 日 常 使 用 的 词语 和 阅读 的 句子 都 称 为 自然 语言 ， 使 用 
计算 机 对 自然 语言 进行 的 处 理 称 为 自然 语言 处 理 。 自 然 语 
言 处 理 和 图 像 识 别 、 语 音 识别 一 样 都 是 机 器 学 习 的 主要 应 
用 领域 。 本 章 ， 笔 者 会 先 介绍 分 词 和 词素 分 析 等 自然 语言 
处 理 的 基本 概念 ， 然 后 对 机 器 翻译 和 文本 自动 摘要 等 文本 
生成 相关 的 内 容 进 行 说 明 。 另 外 ， 笔 者 也 举例 说 明了 利用 
深度 学 习 进 行 创作 的 可 能 性 。 
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句子 的 结构 和 理解 





下 面 来 介绍 自然 语言 处 理 中 涉及 的 预 处 理 的 相关 知识 。 


要 点 、 @ 自然 语言 处 理 
包 分 词 和 词素 分 析 
@@ Bag-of-words 模型 














思 自然 语言 处 理 


人 们 在 日 常 交 流 中 所 使 用 的 单词 以 及 由 单词 组 成 的 句子 统称 为 自然 语 
言 。 自 然 语 言 随 着 历史 进程 演化 而 来 ， 存 在 一 些 星 深 难 慌 或 结构 模糊 的 句子 。 

人 造 语 言 是 与 自然 语言 相对 的 语言 。 它 是 一 种 为 了 应 对 不 同 国家 纷 索 复 
杂 的 自然 语言 ， 或 为 了 在 影视 剧 中 使 用 而 创造 的 通用 语言 (参照 四 于 )。 
除 此 之 外 ， 还 有 计算 机 语言 ， 其 中 包括 以 控制 机 器 为 目的 而 创建 的 编程 语 
言 以 及 使 机 器 能 够 识别 文档 文件 的 标记 语言 。 人 们 为 这 些 计 算 机 语言 制定 
了 严格 的 语法 规范 ， 以 此 来 消除 歧义 。 

自然 语言 处 理 使 用 机 器 对 自然 语言 进行 分 析 和 理解 ， 并 把 结果 反馈 给 
人 类 或 为 人 类 提供 帮助 ， 以 此 实现 机 器 与 机 器 之 间或 人 与 机 器 之 间 的 自然 
语言 通信 。 自 然 语言 处 理 能 够 将 句子 分 解 为 单词 并 进行 特征 提取 ， 还 能 将 
一 种 语言 翻译 成 男 一 种 语言 。 此 外 ， 文 本 挖掘 是 一 种 从 大 量 的 句子 中 抽取 
特征 词 或 句子 , 或 者 使 用 图 形 等 使 这 些 特征 词 和 句子 可 视 化 ， 从 而 呈现 结 
果 的 分 析 处 理 方法 ， 可 以 说 它 是 自然 语言 处 理 的 一 部 分 ( 图 和 El )。 


和 人 造 语言 
人 造 语言 中 ， 国 际 辅助 语 Esperanto 


( 也 叫 世界 语 ) 非常 有 名 。 













































































加 
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人 们 在 日 常 交 流 
中 使 用 的 语言 造 语言 为 了 进行 翻译 和 理解 
语义 ， 由 机 器 进行 必 
























































要 的 预 处 理 、 分 析 处 








理 和 翻译 等 


给 机 器 下 达 的 无 
歧义 的 命令 





[EEEEI 自然 语言 和 自然 语言 处 理 


蓄 分 词 和 词素 分 析 





计算 机 很 难 直 接 分 析 由 自然 语言 组 成 的 句子 ， 将 句子 分 解 成 单词 后 ， 
计算 机 才能 进行 分 析 。 在 将 一 个 句子 分 解 成 单词 时 非常 重要 的 一 点 就 是 分 
词 。 英语 和 拉丁 语 分 别 属于 印 欧 语系 中 的 日 耳 曼 语族 和 罗曼 语族 。 这 些 起 
源 于 欧洲 的 语言 ， 单 词 问 用 空格 划分 ， 相 当 于 存在 天 然 分 隔 符 ， 所 以 除了 
由 多 个 词 构成 复合 词 的 德语 ， 其 他 语言 的 句子 很 容易 分 解 成 单词 。 再 来 看 



































日 语 、 汉 语 和 朝鲜 语 等 语言 ， 这 些 语 言 没有 使 用 空格 分 隔 单词 的 习惯 ， 所 
以 必须 进行 分 词 处 理 。 

与 分 词类 似 的 处 理 还 有 词素 分 析 ， 单 词 分 割 也 属于 词素 分 析 。 词 素 
分 析 旨 在 对 单词 进行 分 割 以 及 对 分 割 后 的 单词 标注 词性 。 由 于 日 语 的 词 
性 标注 对 单词 分 割 很 有 帮助 ， 所 以 词组 标注 和 词性 标注 会 同时 进行 。 词 
素 分 析 程序 主要 有 MeCab 、Kuromoji 和 JUMAN (JUMAN++ ) 等 (参照 
TREE 到 | ED ). 
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[区 下 瑟 8 辐 | MeCab” 的 执行 示例 











他 er Sh lt at 

爱 No Es 

画 画 V/V,BE,2, 画 画 ,hua_hua, 屿 羽 

画 画 | V/V,BE,2, 画 画 ,hua_hua, 忌 忌 

画 wv ee 
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下 年 和 

很 ome en 
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国画 一 下 午 和 


D4 








站 日 固 固 晶 日 因 日 四 
代词 个 动词 个 动词 下 时 间 词 形容 词 


动词 动词 数 词 副词 





词素 分 析 的 例子 





N-Gram 是 一 种 不 同 于 词素 分 析 的 分 词 方法 。 其 实 严 格 来 讲 ，N-Gram 
并 不 算 一 种 分 词 方 法 。 假 设 有 一 个 字符 串 ，N-Gram 会 按 长 度 N 逐 字 请 过 
该 字符 串 进行 切 分 ， 得 到 单词 。N-Gram 也 适用 于 经 过 词素 分 析 得 到 的 单 


四 MeCab 是 一 款 日 文 词素 分 析 程 序 ， 它 本 身 并 不 0 这 里 是 使 用 Pan Yang 在 
GitHub 上 发 布 的 MeCab-Chinese 进行 分 词 得 出 的 结 译 者 注 
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词 ， 这 时 N-Gram 称 为 字符 级 N-Gram 或 单词 级 N-Gram。 当 N=1 时 ， 
N-Gram 模型 称 为 一 元 模型 ( unigram ) ; 当 N=2 时 ，N-Gram 模型 称 为 二 
元 模型 ( bigram ) ; 当 N=3 时 ，N-Gram 模型 称 为 三 元 模型 ( trigram ) "。 

把 经 过 词素 分 析 或 N-Gram 分 解 的 词 段 按照 单词 顺序 或 出 现 频率 到 集 
到 一 起 的 方法 称 为 Bag-of- Words ( BoW ) 模型 ( 和 )。 








这 个 周末 ， 应 该 有 很 多 人 去 看 红叶 。 


N=2 的 N-Gram 局 





Bag-of-words 





面 本 N-Gram 的 示例 








除 上 述 方法 之 外 ， 还 有 一 种 基于 贝 叶 斯 方法 的 分 词 方法 。 该 方法 名 为 
基于 非 参数 贝 叶 斯 模型 的 无 监督 分 词 ， 其 最 大 的 特点 是 没有 分 词 表 也 能 进 
行 分 词 -《 兰 波 数据 科学 VolL2 》” 对 该 方法 做 过 介绍 。 

简单 来 说 ， 这 个 方法 就 是 对 Pitman-Yor 过 程 进行 扩展 。Pitman-Yor 过 
程 是 将 基于 狄 利克 雷 过 程 的 N-Gram 模型 进行 扩展 的 方法 。 在 狄 利克 雷 过 
程 中 ， 出 现 的 单词 种 类 越 多 就 越 容易 确定 单词 的 概率 分 布 。 除 此 之 外 还 有 
多 层 结 构 的 层次 Pitman-Yor 过程 (Hierarchical Pitman-Yor Language 
Model，HPYLM )， 以 及 使 用 HPYLM 的 幅 套 Pitman-Yor 过 程 (Nested 
Pitman-Yor Language Model，NPYLM )。 这 些 方法 不 仅 能 对 没有 空格 的 英 
语 单词 进行 分 词 ， 还 可 以 用 于 文言 文 或 其 他 未 知 语言 。 























四 当 N 宇 4 时 直接 用 数字 指称 ， 如 4-Gram、5-Gram。 译 者 注 
@) 原 书 名 为 『 岩 波 二 一 夕 计 4 了 工法 又 ”Vol.2 |， 暂 无 中 文 版。 





编者 注 
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下 面 来 介绍 基于 潜在 语义 索引 ( Latent Semantic Indexing，LSI )、 潜 
在 狄 利 克 雷 分 布 ( Latent Dirichlet Allocation，LDA ) 和 word2vec 的 词汇 
语义 理解 。 


要 点、 名 知识 获取 
© TF-IDF 
包 潜在 语义 索引 
@@ 潜在 狄 利克 雷 分 布 
包 主题 模型 


@ word2vec 








知识 获取 是 指 从 包含 自然 语言 数据 的 专家 系统 等 计算 机 系统 中 汲取 知 
识 和 特征 ， 并 把 有 关 信 息 存 人 知识 库 的 过 程 。 收 集 及 整理 单词 之 间 的 相关 
性 在 知识 获取 的 过 程 中 起 着 十 分 重要 的 作用 。 

在 对 文档 进行 检索 或 比较 时 ， 一 般 会 计算 特征 值 (参照 四)。 不 
过 ， 当 有 意 同 字 不 同 的 单词 时 ， 单 词 相似 度 计算 的 准确 性 就 可 能 会 受到 影 
响 。 例 如 ， 汽 车 也 称 为 车 ， 在 比较 含有 “汽车 ”的 文档 和 含有 “车 ”的 文 
档 时 ， 虽 然 两 个 词 的 意思 相同 ， 但 是 两 个 文档 的 相似 度 会 降低 。 

为 了 避免 这 个 问题 出 现 ， 我 们 可 以 使 用 潜在 语义 索引 。 该 索引 会 利用 奇 
异 值 分 解 进行 降 维 ， 去 除 重要 程度 较 低 的 单词 ， 从 而 提高 相对 词 频 的 相似 度 。 

此 外 ， 洪 在 语义 索引 是 一 种 矩阵 分 解 方法 ， 在 其 中 引入 概率 后 形成 的 
模型 称 为 概率 潜在 语义 索引 (Probabilistic Latent Semantic Indexing， 
PLSI )。 对 于 句子 中 的 单词 ， 该 模型 能 够 根据 话题 的 概率 分 布 生成 与 话题 
相对 应 的 单词 的 概率 分 布 。 




































































| ”小 贴 十 文档 的 特征 值 


TF-IDF 作为 文档 特征 


( Term Frequency )， 


( Inverse 


得 到 的 商 取 对 数 ， 然 

我 们 根据 TF x 
一 个 权重 系数 ， 能 够 削减 那些 在 整 
应 增加 那些 不 经 常 出 





TF 值 





值 





Document Frequency )。 





的 指标 之 一 ， 
指 文 档 中 某 个 单 记 


将 ; 


EN 
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IDF 值 了 。 


普遍 应 





于 文档 检索 。TF 是 词 频 
出 现 的 频率 。IDF 是 逆 文 本 频率 指数 





档 数目 除 以 包含 该 单词 





的 文档 数 








， 对 

















DF 能 够 得 到 某 个 单词 在 














文件 集合 中 的 特征 





值 。TF x IDF 值 是 








个 文档 集合 中 经 党 




















根据 单词 在 文档 4 中 
的 次 数 n4 与 文档 d 中 单 
词 数 Zn, ,的 比值 ， 计 算 
单词 出现 的 频率 

















ne 
tf(d,t) =—— te — 


图 11-4 


概率 潜在 语义 索引 完 


种 模型 。 


TF- a 
( 特征 值 








TF-IDF 





对 于 文档 中 的 多 个 主题 ， 





一 步 生 成 新 的 主题 。 
主题 模型 是 使 用 数学 模型 来 研究 如 何 根据 文档 或 主题 生成 特定 单词 的 
模型 ， 可 用 于 预测 一 个 单词 的 使 用 环境 及 其 含义 。 
单词 共 现 和 分 布 相似 性 可 通过 阅读 大 量 文章 得 知 ; 基于 Harris 的 分 布 


假设 ， 即 语义 相似 的 词 也 





系 。 我 们 把 

















现 的 单词 的 权 习 


重 








( El ) 








使 用 该 模型 能 





将 总 文档 数 N 除 以 包含 单 
词 的 文档 数 df( 四 ， 对 得 到 
9 商 取 对 数 ， 然 后 加 1。 


减 


bb 现 的 助词 





繁昌 














等 词 的 权重 ， 相 











后 ， 能 够 削 


EB 些 在 多 个 文档 中 频 
b 现 的 单词 的 特征 值 ， 
相应 增加 那些 不 经 常 
现 的 单词 的 特征 








出 





值 





完善 后 得 到 的 潜在 狄 利克 雷 分 布 是 目前 最 常用 的 一 
够 根据 主题 的 概率 分 布 进 








会 出 现在 相似 的 语 境 中 ， 能 
基于 这 些 方法 的 语义 理解 称 为 统计 语义 学 。 


了 解 单词 之 间 的 关 


构建 语义 网 络 ， 即 利用 词 与 词 之 间 的 关系 来 表示 语义 关系 ， 对 知识 获 


取 有 着 重要 的 作用 。 再 加 上 一 些 补充 信 息 ， 





比如 词语 的 不 同 表 达 形 式 、 同 
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义 词 、 近 义 词 、 上 下 义 关 系 、 部 分 整体 关系 、 语 义 范畴 关系 和 属性 关系 
后 ， 通 过 机 器 处 理 即 可 理解 词语 之 间 的 关系 。WordNet 是 一 个 英语 词汇 数 
据 库 ， 作 为 一 个 本 体 库 ， 它 包含 了 同义词 集合 ， 以 及 词汇 和 概念 之 间 的 语 
义 关 系 。 

除 此 之 外 ， 还 有 word2vec 模型 ， 它 会 基于 双 层 神经 网 络 来 估计 单词 
之 间 的 关系 并 将 其 映射 到 向 量 空间 中 。 例 如 ， 我 们 使 用 word2vec 模型 就 
可 以 用 向 量 和 或 向 量 差 来 表示 首都 名 称 与 对 应 国家 名 称 之 间 的 关系 。 这 个 
方法 有 一 个 有 趣 的 特性 ， 即 具有 相似 关系 的 数据 在 特征 空间 中 也 处 于 相似 
的 位 置 。 利 用 这 个 特性 ， 我 们 还 可 以 将 word2vec 应 用 在 其 他 类 型 的 数据 
上 (BE ). 





























把 Japan 和 Tokyo 之 间 
的 关系 应 用 到 France 中 ， 
得 到 的 运算 结果 处 在 Paris 


向 量 的 大 小 和 方向 
都 没有 相似 性 的 词 
语 在 向 量 空间 中 处 
于 边缘 位 置 








区 而 ”word2vec 示例 





另外 ， 我 们 还 可 以 在 word2vec 的 基础 上 组 合 使 用 单词 与 其 他 类 型 的 
数据 ， 这 样 word2vec 就 能 在 更 多 的 场景 下 使 用 ， 例 如 根据 图 片 注释 与 图 
片 的 关系 推荐 由 相似 的 单词 联想 到 的 图 片 。 

研究 人 员 也 在 积极 地 将 前 述 的 语言 和 情感 的 关系 存储 到 数据 库 或 本 体 
(ontology ) 中 。 例 如 ， 出 现 了 Negaposi (消极 - 积极 ) API 和 情感 分 析 
API 等 开放 的 Web 服务 API。 自 2012 年 以 来 ， 开 发 者 使 用 这 些 Web 服务 
API 开发 的 应 用 程序 逐渐 在 Mashup Award 等 开发 竞赛 中 亮相 。 在 调用 这 
些 Web 服务 API 构建 日 语 形 容 词 表达 词典 时 ,使 用 了 3 层 或 7 层 自动 标 
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注 的 数据 集 来 表达 情感 和 情感 表达 方式 ， 这 些 数据 集 对 于 评价 分 析 尤 为 重 
要 。 与 此 相关 的 还 有 基于 语音 的 情感 分 析 API。 

我 们 可 以 使 用 维基 百科 数据 集 来 训练 word2vec， 分析 词 语 之 间 的 相 
关 性 。 这 个 数据 集中 还 包含 由 从 小 说 中 提取 的 特征 值 组 成 的 数据 集 。 根 据 
用 户 的 使 用 目的 选择 要 分 析 的 数据 类 型 ， 可 能 需要 学 习 数 千 兆 字 节 ( GB ) 
的 句子 才能 得 到 理想 的 模型 。 
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结构 分 析 





下 面 来 介绍 结构 分 析 。 





要 点 、 包 句法 分 析 
名 谓词 性 结构 分 析 
包 短语 结构 分 析 





草 句法 分 析 
文章 中 有 一 种 结构 称 为 句法 结构 。 我 们 会 使 用 这 个 结构 来 表示 句子 中 
单词 之 间 的 关系 ， 所 以 只 要 把 握 好 它 就 可 以 理解 句子 的 含义 了 。 下 面 以 
“ 蓝 色 翅膀 的 可 爱 的 小 鸟 ”为 例 来 介绍 一 下 句法 结构 。 
通过 机 融 处 理 和 掌握 句法 结构 的 行为 称 为 句法 分 析 。 句 法 分 析 主 要 有 两 
种 方法 ,一 种 是 移 进 - 归 约 (shift-reduce ) 分 析 方 法 ， 另 一 种 是 基于 最 小 
生成 树 ( Minimum Spanning Tree，MST ) 的 分 析 方法 ( 国 EE5 )。 









































移 进 - 归 约 分 析 方 法 最 小 生成 树 方法 


一 一 一 一 蓝 色 一 多 羽毛 
小 蓝 色 ”羽毛 的 可 爱 的 和 鸟 = 
小 < 攻 的 
tl 移 如 匡 
人 











” 
Ci |] 乌 4 可 爱 的 
ID | 
| 


reduce ( 用 箭头 连接 词语 ) 








句法 结构 和 句法 分 析 





移 进 - 归 约 分 析 方 法 通过 执行 移 进 和 归 约 两 个 处 理 ， 生 成 一 个 树 状 
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结构 。 移 进 处 理 是 把 未 分 析 的 词 段 左 端 (第 一 个 ) 插入 树 中 ， 归 约 处 理 是 
把 树 中 右 侧 的 两 个 单词 用 箭头 连接 起 来 。 反 复 执 行 移 进 和 归 约 处 理 ， 就 能 
生成 一 个 大 的 树 状 结构 。 日 语 只 使 用 从 右 向 左 归 约 (reduce-right )， 而 英 
语 还 会 使 用 从 左 向 右 归 约 (reduce-left )。 

在 最 小 生成 树 方法 中 ， 我 们 以 单词 为 节点 生成 图 ， 并 为 单词 之 间 的 关 
系 设 置 分 值 ， 然 后 通过 保留 高 分 的 单词 组 合 来 创建 树 状 结构 。 不 同 于 逐个 
处 理 单词 的 移 进 - 归 约 分 析 方 法 ， 最 小 生成 树 方法 会 一 次 性 处 理 所 有 单 
词 ， 准 确 度 更 高 ， 但 是 它 的 处 理 时 间 较 长 ， 效 率 不 如 移 进 - 归 约 分 析 方 
法 高 (EE )- 




































































区 谓词 性 结构 分 析 





日 语 用 格 助词 来 标识 名 词 所 充当 的 语法 角色 。 例 如 有 表示 主语 的 主格 
助词 、 表 示 所 属 的 领 格 助词 ， 还 有 补 格 助词 。 我 们 把 格 助词 与 动词 和 形容 
词 等 谓语 之 间 的 关系 称 为 格 助词 结构 。 由 于 可 以 用 谓语 和 表示 对 象 的 名 词 
性 词组 (短语 ) 来 表示 句子 的 含义 ， 所 以 我 们 也 把 识别 句子 成 分 的 操作 称 
为 谓语 性 结构 分 析 。 日 语 的 句子 成 分 是 通过 格 助词 描述 的 ， 所 以 谓语 性 结 
构 分 析 也 可 以 称 为 格 助词 分 析 。 日 本 京都 大 学 文本 语料库 〈Version 4.0 ) 
以 及 奈良 先端 科学 技术 大 学 院 大 学 (NAIST ) 的 文本 语料库 中 也 包含 了 格 
助词 关系 的 信息 注释 。 












































泌 短语 结构 分 析 





除了 表示 单词 之 间 关 系 的 句法 结构 ， 我 们 还 可 以 使 用 短语 结构 分 析 。 短 
语 结构 分 析 具 体 来 说 就 是 通过 分 析 词 段 组 成 的 短语 结构 来 掌握 句子 的 结构 
(回国 )， 生 成 动词 短语 、 名 词 短语 、 形 容 词 短语 、 助 词 短 语 等 短语 之 间 
的 树 状 结构 。 例 如 ， 我 们 用 N、ADJ 和 P 分 别 表示 名 词 、 形 容 词 和 助词 ， 在 
它们 后 面 分 别 加 上 P 了 后， 用 NP、ADJP 和 PP 分别 表示 名 词 短语 、 形 容 词 
短语 和 助词 短语 ( 后 置 短语 )， 这 样 就 可 以 用 树 状 结构 来 表示 短语 结构 了 。 
这 里 的 树 状 结构 相当 于 句法 结构 。 但 有 时 树 状 结构 并 非 唯一 确定 的 ， 有 些 
(语意 不 明 的 ) 短语 可 以 同时 表示 多 种 含义 。 英 语 中 主要 通过 短语 结构 分 
析 来 确定 句子 结构 。 排 列 在 树 状 结构 底层 的 单词 称 为 叶 节 点 或 终端 节点 。 
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短语 结构 分 析 


基于 深度 学 习 的 自然 语言 处 理 通常 使 用 循环 神经 网 络 和 长 短期 记忆 网 
络 进行 结构 分 析 ( 参照 JE )， 循 环 神经 网 络 着 重 于 把 输入 词 段 处 理 为 
时 序数 据 ， 而 长 短期 记忆 网 络 是 循环 神经 网 络 的 增强 版 ， 它 比 循环 神经 网 
络 更 稳定 。 相 反 ， 如 果 把 词 段 看 作 一 个 包含 短语 结构 的 树 状 结构 ， 我 们 还 
可 以 采用 基于 递归 神经 网 络 (Recursive Neural Network，RNN ) 的 方法 。 
需要 注意 ， 递 归 神 经 网 络 的 缩写 和 循环 神经 网 络 一 样 都 是 RNN， 但 它们 
是 两 种 不 同 的 神经 网 络 。 


















































[J 基于 深度 学 习 的 句法 分 析 程 序 
Google 开发 的 SyntaxNet 和 Facebook 开发 的 DeepText 都 是 基于 深度 学 习 
的 句法 分 析 程 序 。 





























下 面 来 介绍 文本 生成 。 


要 点 、 6 汉字 转换 
包 机 器 翻译 
包 文本 自动 摘要 
包 图 像 自动 标注 












































里 汉字 转换 

在 生成 日 语 的 句子 时 ， 把 假名 ”转换 为 汉字 是 一 个 非常 重要 的 处 理 。 
以 往 是 根据 字典 中 两 个 相 邻 单词 之 间 的 关系 来 进行 汉字 转换 的 ，21 世纪 
初期 以 来 ，N-Gram 模型 中 的 三 元 模型 逐渐 被 IME 输入 法 程序 采用 。 自 从 
出 现 基于 统计 的 转换 方法 后 ， 预 测 转换 也 得 以 实现 。2010 年 之 后 ， 人 们 
开始 通过 互联 网 把 大 量 网 络 词语 作为 网 络 字 典 来 使 用 ， 以 便 根据 实际 情况 
进行 汉字 转换 。 

在 进行 假名 汉字 转换 时 ， 可 以 使 用 连 句 节 ” 转换。 这 种 转换 方法 适用 
于 多 个 句 节 相连 的 情况 ， 但 由 于 在 这 种 情况 下 存在 同音 异 义 词 和 多 种 句 节 
切 分 方法 ， 所 以 要 求 汉字 转换 的 速度 要 快 。 

连 句 节 的 汉字 转换 候选 项 采用 了 网 格 存储 结构 。 因 句 节 横向 排列 ， 汉 
字 转 换 候选 项 的 同音 异 义 词 纵向 排列 ， 形 成 网 格 结构 ， 所 以 才 叫 网 格 存储 
结构 。 为 网 格 结构 中 汉字 之 间 的 连接 关系 设置 分 值 ， 得 分 最 高 的 汉字 转换 
候选 项 组 合 就 是 最 后 输出 的 结果 。 这 种 方法 称 为 维特 比 算法 ， 它 也 是 一 种 
动态 规划 算法 (参照 四 于] )。 

























































































Q( 假名 是 日 语 的 表 音 文字 ， 分 为 平 假名 和 片 假 名 。 
@， 多 节 表示 一 个 独立 的 日 语词 或 词组 及 其 附属 部 分 





译 者 注 
译 者 注 
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网 格 存储 结构 


(start) 





通过 维特 比 算法 ( 一 种 动态 规划 算法 )， 
把 通过 高 分 路 径 的 单词 连接 起 来 就 得 到 
了 最 终 的 转换 结果 














汉字 转换 示例 ( 连 句 节 转换 ) 


沁 机 器 翻译 

噪声 信道 模型 会 通过 加 密 、 转 换 语言 或 添加 噪声 等 操作 来 让 原本 可 以 
理解 的 句子 变 得 难以 理解 。 而 机 器 翻译 就 是 用 机 器 将 这 些 难 以 理解 的 句子 
复原 的 过 程 ) 











噪声 信道 模型 















































自然 语言 处 理 























机 器 翻译 示意 图 





在 机 器 翻译 中 ,输入 的 语言 称 为 源 语言 ， 输 出 的 语言 称 为 目标 语言 。 
机 器 翻译 由 两 个 问题 组 成 : 一 个 是 译文 选择 问题 ， 指 如 何 把 源 语言 的 单词 
映射 到 译文 相对 应 的 单词 上 ; 另 一 个 是 调 序 问题 ， 指 根据 目标 语言 决定 这 
些 单 词 的 顺序 。 机 器 翻译 是 一 个 非常 难 的 研究 课题 ， 词 序 差 异 更 是 机 顺 翻 
译 所 面临 的 技术 壁垒 。 
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基于 短语 的 统计 机 需 翻 译 是 最 简单 、 最 常用 的 机 器 翻译 方法 之 一 ， 它 
由 翻译 模型 、 调 序 模型 、 语 言 模型 三 部 分 组 合 而 成 。 生 成 译文 的 过 程 称 为 
解码 ， 翻 译 机 称 为 解码 器 ， 解 码 器 从 译文 候选 项 中 选择 高 分 的 候选 项 进行 
组 合 ， 然 后 将 其 作为 最 终 的 翻译 结果 输出 。 在 使 用 该 方法 的 情况 下 ， 源 语 
言 单词 段 中 的 单词 会 被 逐个 翻译 并 输出 ， 其 中 的 单词 都 只 能 被 选择 一 次 。 

翻译 模型 中 包含 大 量 的 短语 对 词典 ， 每 个 短语 对 由 源 语言 短语 和 目标 
语言 短语 组 成 ， 并 且 包 含 分 值 。 调 序 模型 按照 概率 分 布 来 估计 编码 时 的 词 
序 是 否 恰当 ， 并 根据 需要 调整 单词 顺序 。 语 言 模型 和 假名 汉字 转换 一 样 ， 






































会 确保 输出 句子 的 流畅 性 。 使 用 N-Gram 模型 时 通常 会 将 W 设 为 4 或 5 
( Ee )。 














翻译 模型 
准备 包含 复合 词 的 短 
语 对 词典 ， 并 为 规则 
设置 分 值 


































语言 模型 
像 假 名 汉字 转换 一 样 ， 
使 用 N-Gram 模型 确 
保 目 标语 言 句 子 的 流 
畅 性 


调 序 模型 
在 按照 概率 估计 编码 时 的 
词 序 是 否 恰当 时 ， 若 有 词 
序 不 自然 的 地 方 ， 则 根据 
需要 调整 单词 顺序 





























































基于 短语 的 统计 机 器 翻译 





基于 短语 的 统计 机 器 翻译 输出 的 是 源 语言 单词 的 译文 ， 还 有 一 种 基于 
句子 结构 特征 的 机 器 翻译 。 这 是 一 种 考虑 了 句子 结构 的 翻译 方法 ， 该 方法 
包括 基于 目标 语言 句子 结构 的 string-to-tree 翻译 、 基 于 源 语言 句子 结构 的 
tree-to-string 翻译 ， 以 及 基于 两 种 语言 句子 结构 的 tree-to-tree 翻译 。 这 些 
方法 各 有 利 头 (图 ES )- 
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目标 语言 的 句子 结构 信息 string-to-tree 





利用 源 语言 的 句子 结构 信息 tree-to-string 预 排 序 



































两 种 语言 的 句子 结构 信息 tree-to-tree 


- 


词 序 差异 较 大 时 难以 实现 



































基于 句子 结构 特征 的 机 器 翻译 


string-to-tree 翻译 的 特点 是 依赖 目标 语言 的 结构 分 析 以 及 处 理 成 本 较 
高 。 对 tree-to-string 翻译 来 说 ， 依 赖 源 语言 的 结构 分 析 准 确 度 ， 避 免 输 入 
的 句子 有 多 种 含义 非常 重要 。tree-to-string 翻译 虽然 能 够 快速 生成 译文 ， 
但 其 性 能 取决 于 输入 句子 的 结构 ， 不 同 的 结构 在 性 能 上 可 能 会 有 较 大 差异 。 

预 排序 方法 利用 的 也 是 源 语 言 的 结构 。 跟 字面 意思 一 样 ， 所 谓 预 排序 
就 是 按照 目标 语言 的 顺序 预先 对 源 语言 的 单词 进行 排序 。 虽 然 该 方法 要 求 
具备 两 种 语言 的 知识 ， 但 它 能 够 抑制 长 距离 调 序 ， 还 能 引入 基于 短语 的 统 
计 机 器 翻译 ， 所 以 在 翻译 的 准确 度 上 较 高 。 该 方法 在 日 英 、 英 日 翻译 中 的 
应 用 受到 人 们 的 关注 。 

为 了 使 翻译 结果 更 贴近 自然 语言 ，Google 开发 了 基于 神经 网 络 的 翻 
译 系统 GNMT ( Google Neural Machine Translation )， 并 将 其 用 于 中 英 互 
译 。GNMT 在 长 短期 记忆 网 络 的 基础 上 进行 了 改进 ， 从 2016 年 11 月 开始 
应 用 于 日 英 互 译 。 


机 和 需 翻 译 是 把 一 种 语言 转换 为 另 一 种 语言 ， 而 摘要 是 同一 种 语言 内 名 
子 的 转换 。 根 据 输入 文本 的 数量 ， 文 本 自动 摘要 可 分 为 单 文档 摘要 和 多 文 
档 摘要 ; 根据 摘要 方法 ， 文 本 自动 摘要 可 分 为 抽取 式 摘 要 和 抽象 式 摘要 。 
一 定 程度 的 提取 式 摘要 已 经 能 够 通过 自动 化 实现 ， 但 是 生成 式 摘 要 的 技术 
发 展 水 平 还 有 待 提 高 (加 国史 ) 
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摘要 方法 























单 文档 摘要 


























多 文档 摘要 


文本 自动 摘要 的 类 型 图 











在 抽取 式 单 文档 摘要 中 ， 最 简单 有 效 的 方法 就 是 Lead Baseline。 该 方 
法 会 抽取 一 篇 文档 中 的 前 几 句 话 作为 摘要 ， 对 于 习惯 将 重要 内 容 放 在 开头 
的 新 闻 报 道 等 文档 ，Lead Baseline 能 够 很 好 地 实现 摘要 功能 。 

如 果 有 多 个 文档 ， 我 们 就 需要 使 用 多 文档 摘要 方法 ， 例 如 MMR 
( Maximal Marginal Relevance， 最 大 边缘 相关 ) 算法 。MMR 首先 从 多 个 文 
档 中 选取 相似 度 最 高 的 句子 作为 摘要 句 ， 然 后 使 摘要 句 之 间 的 相似 度 最 小 
化 ， 消 除 句 间 宛 余 ， 生 成 摘要 。 对 于 相似 度 ， 我 们 可 以 使 用 余弦 相似 度 等 
既 有 方法 进行 计算 。 男 外 ， 也 可 以 任意 设置 句子 的 选择 次 数 。 

在 使 用 文本 自动 摘要 这 项 技术 时 ， 我 们 需要 手动 完成 一 部 分 工作 ， 比 
如 删除 不 必要 的 句子 、 组 合 句子 、 转 换 句 法 结构 、 词 汇 释义 、 抽 象 化 与 具 
体 化 以 及 调 序 等 。 对 于 这 些 工作 ， 人 们 讨论 了 多 种 自动 化 方法 来 完成 。 例 
如 ， 单 文档 摘要 是 抽取 特定 长 度 的 词 段 来 生成 句子 的 ， 所 以 可 归结 为 背 
问题 。 多 文档 摘要 可 归结 为 最 大 履 羡 问题 和 设施 选 址 问题 来 实现 自动 化 。 

希望 未 来 能 出 现 无 须 人 工 干涉 的 文档 摘要 评价 方法 和 抽象 式 自动 摘要 
系统 ， 以 及 越 来 越 多 的 深度 学 习 模 型 等 技术 。 





















































更 图 像 自动 标注 和 句子 创作 





人 注意 力 机 制 

机 器 翻译 中 可 以 使 用 编码 - 解码 (encoder-decoder ) 结构 来 像 自动 编 
码 需 一 样 训 练 源 语 言 和 目标 语言 的 翻译 数据 。 输 入 端 (encoder ) 和 输出 端 
( decoder ) 分 别 采 用 循环 神经 网 络 模型 ， 在 输入 到 输出 的 过 程 中 ， 将 数据 
压缩 到 一 个 叫 作 上 下 文身 量 的 中 间 节 点 上 ， 以 此 来 提高 翻译 的 准确 度 ， 这 
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种 机 制 称 为 注意 力 机 制 ( attention mechanism )。 

图 像 理 解 是 对 图 像 和 视频 的 语义 理解 ， 例 如 研究 图 像 是 什么 类 型 ， 图 
像 中 有 什么 目标 等 。 与 图 像 理解 相关 的 研究 有 标题 生成 。 另 外 ， 人 们 还 学 
试 将 机 器 翻译 中 使 用 的 注意 力 机 制 与 着 腿 于 图 像 区 域 或 对 象 的 注意 力 模型 
进行 融合 并 应 用 。 除 了 为 静态 图 像 生成 句子 描述 〈 标题 )， 卷 积 神经 网 络 、 
循环 神经 网 络 、 长 短期 记忆 网 络 等 模型 的 组 合 还 能 为 视频 添加 标题 。 有 目前 
已 出 现 了 此 类 应 用 示例 。 
























































马 利用 长 短期 记忆 网 络 生成 音乐 ， 利 用 循环 神经 网 络 生成 电影 剧本 

以 深度 学 习 为 主 的 机 器 学 习 模型 的 应 用 领域 包括 但 不 限于 图 像 、 信 和 号 
和 自然 语言 。2016 年 发 布 的 deepjazz 是 在 黑客 马拉松 (Hackathon ) 中 创 
作出 来 的 项 士 乐 作曲 程序 。 它 把 开启 、 关 闭 乐器 声音 (音符 ) 的 数据 文件 
MIDI 作为 输入 来 生成 音乐 。 有 一 个 相似 的 模型 叫 jazzML， 它 也 能 基于 机 
器 学 习 算法 来 生成 音乐 ， 而 deepjazz 在 jazzML 的 基础 上 ， 使 用 Keras 和 
Theano 来 生成 盘 士 乐 ， 构 建 了 一 个 两 层 的 长 短期 记忆 网 络 。 使 用 deepjazz， 
我 们 可 以 听 到 以 派 特 : 麦 席 尼 (Pat Metheny ) 的 歌曲 作为 输入 生成 的 狠 
士 乐 。 

男 外 ， 由 人 工 智 能 担任 编剧 的 科幻 短片 《阳春 》( Sunspring ) 也 曾 在 
电影 节 上 亮相 。 这 是 人 类 有 史 以 来 第 一 部 由 人 工 智能 担任 编剧 的 影片 。 该 
影片 还 参加 了 伦敦 科幻 电影 节 的 48 小 时 电影 挑战 。 该 竞赛 要 求 影 片 必须 
在 48 小 时 内 制作 完成 。 编 写 《 阳 春 》 剧 本 的 人 工 智能 算法 叫 本 杰 明 
(Benjamin )。 值 得 一 提 的 是 ， 这 部 影片 的 背景 音乐 的 歌词 也 是 本 杰 明 自己 
创作 的 。 

通过 机 器 学 习 生 成 自然 的 歌词 和 曲谱 可 能 只 是 时 间 问 题 而 已 。 

此 外 ， 日 本 国内 开设 了 “ 星 新 一 奖 "， 鼓 励 人 们 利用 人 工 智 能 创作 小 
说 。 在 2016 年 第 三 届 “ 星 新 一 奖 ” 比 赛 中 ， 有 一 件 由 人 工 智 能 创作 的 作 
品 通过 初审 。 当 前 ， 长 篇 小 说 中 句子 不 一 致 、 写 作风 格 不 自然 等 是 使 用 人 
工 智能 创作 小 说 主要 面临 的 问题 。 另 外 ， 由 人 工 智能 创作 的 句子 还 需要 经 
过 人 类 的 修改 ， 而 且 修 改 的 比例 超过 了 80%。 希望 这 些 问题 今后 都 能 得 到 
解决 。 
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预计 今后 除了 研究 团队 ， 企 业 也 会 自主 推进 文本 自动 生成 系统 的 开 
发 。 通 过 语音 输入 来 交互 式 创作 小 说 的 应 用 程序 可 能 会 面世 。 








雪 微软 小 冰 和 对 话 即 平台 

目前 处 于 领先 地 位 并 为 消费 者 所 熟知 的 语句 自动 生成 程序 包括 苹果 公 
司 的 Siri 和 微软 小 冰 (参照 ER )。 微 软 小 冰 是 一 款 聊天 机 器 人 ， 其 特 
点 是 可 以 设置 性 格 并 进行 对 话 。 微 软 公司 重点 投入 开发 的 小 冰 和 Windows 
10 上 的 微软 小 娜 (Cortana ) 等 人 机 对 话 系统 被 定位 为 对 话 即 平台 


( Conversation as a Platform ，CaaP )。 


























小 


关于 微软 小 冰 的 相关 内 容 ， 大 家 可 
参考 百度 百科 等 网 站 。 























根据 在 语言 处 理学 会 ”上 发 表 的 研究 成 果 显 示 ， 除 了 TF-IDF 和 
word2vec 的 概念 ， 微 软 小 冰 还 使 用 了 基于 循环 神经 网 络 的 深度 学 习 。 

提起 深度 学 习 在 自然 语言 处 理 中 的 应 用 ， 我 们 很 容易 想到 基于 循环 神 
经 网 络 的 句法 分 析 ， 而 微软 小 冰 在 选择 短语 和 构建 回答 语句 时 也 使 用 了 深 
度 学 习 模 型 。 同 时 它 还 使 用 了 深度 结构 化 语义 模型 (Deep Structured 
Semantic Models，DSSM ) 和 循环 神经 网 络 ， 这 里 的 循环 神经 网 络 是 一 种 
RNN-GRU (Gated Recurrent Unit ) 网 络 ， 而 非 单纯 的 循环 神经 网 络 。 把 
过 去 学 习 和 积累 的 单词 及 短语 用 作文 档 ， 把 输入 短语 用 作 查 询 ， 计 算 二 者 
的 相似 度 ， 关 于 这 方面 内 容 ， 深 度 结构 化 语义 模型 和 GRU 能 够 起 到 非常 
大 的 作用 。 

GRU 也 是 一 种 网 络 模块 ， 它 是 长 短期 记忆 网 络 的 一 种 变 体 。 它 将 LSTM 
重复 模块 中 的 遗忘 门 和 输入 门 合成 一 个 更 新 门 ， 并 混合 了 存储 单元 的 状态 和 
隐藏 状态 。 最 终 的 模型 比 标准 的 长 短期 记忆 网 络 模型 要 简单 ( 国正). 















































中 语言 处 理学 会 是 日 本 专门 用 于 发 表 语言 处 理 研 究 成 果 的 平台 。 译 者 注 


262 | 图 解 人 工 智 能 


LSTM 重 复 模块 


Gated Recurrent Unit 





EEEEE GRU 


识 表示 和 类 
I 和 表示 和 数据 





为 了 长 期 使 用 知识 库 系统 的 数据 和 基于 机 器 学 习 得 到 的 分 
类 器 的 特征 值 等 状态 数据 ， 我 们 需要 将 这 些 数据 存储 到 外 
部 存储 器 上 。 本 章 ， 笔 者 会 介绍 用 来 存储 数据 的 数据 库 管 
理 系统 ( Database Management System，DBMS ) 以 及 
它 的 类 型 和 检索 方法 ， 还 会 介绍 一 些 数据 结构 ， 这 些 数据 
结构 可 以 用 来 描述 本 体 和 链接 数据 ( linked data ) 等 RDF 
概念 问 的 相关 性 。 
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数据 库 





下 面 来 介绍 数据 库 。 








要 点 、@ 数据 库 及 其 类 型 
© SOL 


© NoSOL 











专家 系统 等 模型 在 根据 用 户 输入 的 数据 进行 预测 时 ， 必 须 有 预测 依 
据 。 因 此 ， 这 些 可 以 作为 预测 依据 的 信息 需要 事先 存储 在 某 个 位 置 ， 这 个 
位 置 就 是 数据 库 。 

严格 来 说 ， 数 据 库 的 名 称 应 该 是 数据 库 管 理 系统 。 根 据 数 据 的 管理 方 
法 ,数据 库 可 分 为 以 下 几 种 类 型 ( 国 邮 于 | ). 




















RDBMS 文件 系统 
SQLite, MySQL, PostgreSQL 
Oracle Database, Microsoft SQL Server 
FAT 
NTFS 
ext4 
XFS 
ZFS 
KVS 面向 文档 的 | | 图 形 数据 库 LDF 
数据 库 UnionFS 


Memcached HDFS 


BigTable MongoDB 
Cassandra 








数据 库 的 类 型 
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写 文件 系统 

数据 管理 离 不 开 计 算 机 操作 系统 级 别 的 文件 管理 系统 ， 和 常见 的 系统 包 
括 FAT (File Allocation Tables， 文 件 配置 表 ) 和 NTFS (NT File System ， 
NT 文件 系统 )。 

FAT 在 磁盘 的 起 始 扇 区 存储 目录 项 ( 文件 夹 )， 目 录 项 中 记录 了 文件 
名 和 地 址 编号 等 信息 。 数 据 区 是 数据 在 硬盘 中 的 具体 位 置 ，FAT 表 中 的 地 
址 编号 与 数据 区 的 篮 号 相同 (NTFS 的 详细 规格 并 未 公开 )。Linux 文件 系 
统 中 使 用 索引 节点 inode (Unix 的 文件 系统 中 使 用 的 文件 格式 ) 来 记录 文 
件 的 属性 并 关联 文件 名 和 文件 数据 。 
































蕊 关系 型 数据 库 

除了 在 一 个 文件 中 存储 一 个 或 多 个 数据 的 方法 ， 我 们 还 经 常 使 用 关系 
型 数据 库 管理 系统 (Relational DataBase Management System, RDBMS ) 
来 管理 数据 。 

数据 表 是 关系 型 数据 库 的 基本 结构 。 它 是 关于 特定 主题 的 数据 集合 ， 
由 行 和 列 组 成 ， 表 中 的 每 一 行 数据 就 是 一 条 记录 。 在 定义 数据 表 时 ， 需 
定义 一 个 或 多 个 字段 的 属性 ( 列 属性 )， 每 条 记录 由 多 个 字段 的 值 组 成 



































(参照 四 时)。 
主键 (primary key ) ( 参照 IEE 目 ) 能 够 唯一 标识 数据 表 中 的 每 条 





记录 。 在 数据 库 中 设置 主键 和 索引 (index ) 能 够 极 大 地 提高 数据 检索 的 

我 们 把 结构 很 少 发 生变 动 的 表 称 为 主 表 (master table )， 结 构 频 繁 发 
生变 动 的 表 称 为 事务 表 (transaction table )。 最 好 根据 数据 属性 来 对 数据 表 
进行 分 类 。 

我 们 可 以 对 多 个 表 创 建 索引 ， 即 通过 外 键 ( foreign key ) 为 相关 的 表 
建立 关联 。 

例如 ， 当 我 们 使 用 数据 库 管 理 用 户 购 买 的 商品 时 ， 就 可 以 把 用 户 信 
息 管 理 表 中 的 一 条 记录 与 购买 商品 管理 表 中 的 多 条 记录 关联 起 来 。 相 比 于 
在 一 个 表 中 管理 多 种 物品 信息 ， 这 种 方式 更 能 节省 存储 空间 ， 搜 索 效 率 也 
更 高 。 
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在 以 往 的 数据 表 设 计 中 ， 具 有 自然 主键 含 

义 的 字段 通常 会 被 设 为 主键 。 如 果 一 个 主键 不 

和 数据 未 能 唯一 标识 所 有 记录 ， 我 们 可 以 使 用 多 个 字段 

在 表格 计算 软件 上 ， 组 成 复合 主键 。 

数据 表 可 以 用 电子 表格 于 使 用 代理 主键 作为 主键 再 加 上 唯一 约束 ， 

示 ， 所 以 有 些 系 统 把 记录 从 而 得 到 唯一 识别 记录 的 字段 组 合 ， 这 种 数据 

称 为 行 。 另 外 ， 有 些 数据 表 结 构 自 Ruby on Rails 框架 出 现 以 后 便 成 为 
库 软 件 会 将 列 称 为 字段 。 主流 。 














医 Selll 


将 多 个 字段 分 散 到 多 个 表 中 ， 每 个 表 中 包含 一 部 分 数据 承担 相应 的 功 
能 ， 这 种 规则 称 为 范式 。 跨 多 个 表 进 行 查询 称 为 联结 查询 ( 医 芭 车 | )。 

















父 表 中 的 一 条 记录 可 以 对 应 多 个 
子 表 ， 在 子 表 中 可 以 找到 关于 父 
表 中 这 条 记录 的 详细 信息 

















关系 型 数据 库 管 理 系 统 


在 关系 型 数据 库 中 ， 我 们 使 用 SQL 语句 ( 参 时 证 | ) (下 本 于 和 | ) 
来 查询 和 更 新 数据 。 
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ET sa- 


结构 化 查询 语言 ( Structured Query Language ) 简称 SOL， 是 一 种 数据 库 查 
询 和 程序 设计 语言 。 





柜 丁 王 王 EE 本 SQL 语句 的 示例 


SELECT * FROM table customers WHERE age < 40; 


关系 型 数据 库 擅 长 处 理 预 定义 的 结构 化 数据 字段 。 

与 结构 化 数据 相对 ， 结 构 可 变 、 字 段 长 度 可 变 的 数据 称 为 非 结构 化 数据 。 
SQL 不 擅长 处 理 非 结 构 化 数据 ， 而 关系 型 数据 库 的 固定 式 结构 不 够 灵活 ， 这 时 
我 们 可 以 使 用 名 为 NoSQL 的 数据 库 。 该 数据 库 主 要 有 以 下 几 种 类 型 。 












































HXML 

XML ( Extensive Markup Language， 可 扩展 标记 语言 ) 是 一 种 类 似 于 
HTML ( Hyper Text Markup Language， 超 文本 标记 语言 ) 的 标记 语言 ， 它 
用 来 描述 数据 。 另 外 ，XML 文件 可 以 作为 程序 的 配置 文件 使 用 ， 也 可 以 
作为 数据 库 来 存储 数据 ， 查 询 时 使 用 XPath 方式 。 

BaseX 是 一 个 XML 数据 库 引 擎 。 在 数据 量 过 大 的 情况 下 ， 查 询 速度 
会 减 慢 。 


e 参考 . BaseX 官网 



































HKVS 

KVS 是 Key- Value Store ( 键 值 对 存储 ) 的 简称 。 它 是 一 种 按照 键 值 
对 的 形式 存储 数据 的 数据 库 。( )。 

KVS 类 似 于 编程 语言 中 的 Hash (Perl)、Dictionary (Python )、Map 


( Java ) 等 数据 类 型 或 接口 ，Google Cloud Bigtable 和 Memcached 可 以 处 理 
这 些 数据 类 型 。 我 们 可 以 把 Memcached 当成 缓存 使 用 ， 应 用 程序 从 关系 
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型 数据 库 管理 系统 中 取出 数据 后 将 其 保存 到 Memcached 中 ， 客 户 端 再 进 


行 访问 时 ， 应 用 程序 直接 从 缓存 中 获取 数据 ， 从 而 提高 响应 速度 。 
除 此 之 外 ，Cassandra 和 HBase ( 参照 四 ) 等 分 布 式 KVS 数据 库 
还 可 以 与 Apache Hadoop 中 的 分 布 式 数据 处 理 系统 组 合 使 用 。 








一 对 一 键 值 对 


Key Value 








表 结 构 或 多 层 结构 的 键 值 对 


Key1/value1/key2/value2 Value 








KVS 


| “小 贴 十 | Cassandra 和 HBase 等 KVS 


关于 Cassandra 和 HBase 等 KVS 数据 库 ， 大 家 可 以 参考 以 下 网 站 。 
*。 Memcached 官网 

“。 Apache Cassandra 官网 

“。 Apache HBase 官网 








写 面向 文档 的 数据 库 

与 关系 型 数据 库 管 理 系统 和 KVS 不 同 ，MongoDB 等 面向 文档 的 数据 
库 会 将 数据 和 数据 结构 同时 存储 在 数据 库 中 。MongoDB 能 够 以 JSON 格 
式 存储 数据 。 

e 参考 . MongoDB 官网 。 























四 在 MongoDB 中 ,数据 都 以 文档 形式 存储 。 文 档 都 是 以 JSON 格式 存在 的 ， 但 JSON 
字符 串 不 能 直接 写 入 MongoDB， 需 要 转换 。 物理 盘 上 实际 是 以 BSON 格式 存储 
的 。 一 一 译 者 注 
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HHDFS 

HDF 5 是 分 层 数据 格式 ( Hierarchical Data Format ) 的 第 5 版 。 它 是 
一 种 在 文件 内 艇 套 文件 系统 的 数据 格式 ， 可 以 像 电子 表格 软件 那样 ， 在 一 
个 文件 中 存储 多 个 电子 表格 。 

HDF 5 文件 可 以 存储 任意 类 型 的 数据 ， 因 此 它 可 以 保存 基于 机 器 学 习 
得 到 的 分 类 器 的 状态 。 除 C 语言 和 Java 以 外 ，Python 和 及 语言 也 能 通过 
HDF 5 库 访 问 文件 。 

e 参考 . The HDF Group 官网 




















人 图 形 数 据 库 
我 们 前 面 介 绍 的 数据 库 管理 系统 主要 用 来 存储 数据 和 数据 状态 ， 而 有 
些 数据 库 管 理 系统 在 进行 数据 管理 时 更 关注 对 象 之 间 的 图 形 网 络 关 系 ， 例 
如 Neo4j 就 是 一 个 擅长 管理 和 分 析 图 形 的 数据 库 。 
Neo4j 使 用 的 数据 库 查 询 语言 Cypher QL (国画 
类 似 。 此 外 ，MariaDB 和 Oracle Database 等 关系 型 数据 库 管理 系统 中 也 增 
加 了 此 类 数据 访问 功能 ( )。 









































1 





ED ) 与 SQL 









































包含 企业 之 间 以 及 人 与 人 之 间 、 蛋 白质 的 相互 作用 关系 
等 多 种 关系 的 组 合 





























图 形 数 据 库 示例 
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想 王 放 玫 马 到 Cypher QL 的 示例 


CREATE (you:Person {name:"You"}) 


CREATE (you)- [like:LIKE]->(neo:Database {name:"Neo4j" }) 


FOREACH (name in ["Johan","Rajesh","Anna","Julia","Andrew"] | 


CREATE (you)-[:FRIEND]->(:Person {name:name})) 


MATCH (neo:Database {name:"Neo4j"}) 
MATCH (anna:Person {name:"Anna"}) 


CREATE (anna)-[:FRIEND] ->(:Person:Expert {name:"Amanda"})-[:WORKED_ 


WITH] -> (neo) 





Cypher QL 的 运行 示例 





第 12 章 | 知识 表示 和 数据 结构 


检索 


下 面 来 介绍 检索 。 








要 点 、 6 文本 检索 的 方法 
色 全 文 检索 
名 小 波 和 矩阵 





时 文本 检索 的 方法 


包 数据 库 检 索 
名 倒 排 索引 
© BWT 




















今 索 文本 数据 的 过 程 称 为 模式 匹配 。 在 数据 库 或 文档 中 检索 文本 时 ， 


在 模式 匹配 的 基础 上 ， 还 可 以 使 


型 的 参数 来 缩小 检索 范围 。 
使 用 向 量 空间 模型 还 能 一 











并 检索 相似 文档 或 相关 文档 。 





用 AND 和 OR 等 布尔 检索 和 向 量 空间 模 


典型 的 模式 匹配 方式 包括 完全 一 致 、 前 方 一 致 、 后 方 一 致 和 部 分 一 至 


等 。 在 进行 部 分 一 致 检索 时 可 以 采用 逐次 


























逼近 检索 的 方式 (图 EgE5 )- 


从 前 方 或 后 方 按 顺序 





村 串 > ” NETWORK [E> 到 次 运 近 从来 进行 对 照 


NEURALNETWORKDEEPLEARNING 














匹配 





让 NEURAL | 臻 NEURAL WORK | ARNING 后方- 到 | 


部 分 一 致 


完全 一 致 ” NEURALNETWORKDEEPLEARNING 


文本 检索 








我 们 可 以 使 用 Boyer-Moore 算法 (参照 四 WE ) 作为 字符 串 搜索 算 
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法 ， 它 会 根据 搜索 结果 跳 过 某 些 匹配 的 起 始 位 置 ， 提 高 逐次 通 近 检索 的 效 
率 。 另 外 ,正则 表达 式 等 语法 描述 也 可 以 用 来 进行 复杂 匹配 。 

例如 ， 在 grep 命令 中 使 用 Bitap 算法 ， 可 以 像 正 则 表达 式 一 样 进行 模 
糊 检索 。 此 外 还 有 多 种 检索 算法 。 


和 Boyer-Moore 算法 


关于 Boyer-Moore 算法 和 Bitap 算法 ， 大 家 可 以 参考 以 下 网 站 的 内 容 。 
“维基 百科 Boyer-Moore 算法 
“维基 百科 Bitap 算法 
















































































泌 数据 库 检索 








在 检索 数据 库 中 存储 的 数据 时 ， 我 们 通常 会 使 用 逐次 逼近 检索 或 分 块 
俭 索 的 方法 。 分 块 检索 是 把 数据 分 成 于 块 ， 在 每 一 个 小 块 内 进行 逐次 逼近 
检索 ， 再 对 整体 进行 逐次 逼近 检索 ， 以 此 来 判断 数据 与 检索 条 件 是 否 匹 配 
的 方法 。 所 以 ， 采用 二 分 法 插入 排序 能 够 提高 检索 效率 。 

在 MySQL 和 Oracle Database 等 主要 的 数据 库 管 理 系 统 中 ， 创 建 索引 
能 够 提高 检索 效率 。 




















口 B 树 和 B+ 树 

在 创建 索引 时 作为 索引 结构 最 常用 的 是 B 树 的 变种 B+ 树 (参照 
加 ED ). 

B 树 的 搜索 从 根 节点 开始 ， 指 针 指 向 叶 节 点 。 叶 节点 存储 数据 ， 而 且 
所 有 叶 节点 具有 相同 的 深度 。 在 插入 或 删除 数据 的 情况 下 ，B 树 会 调整 自 
身 保持 平衡 。 这 种 树 结构 称 为 平衡 多 叉 树 。 
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包含 键 值 的 节点 
键 指向 数据 的 指针 



































使 用 | 1, 3, 4 6,7, 9, 10 
7 个 数据 创建 B 树 

















B+ 树 的 结构 
摘自 杂志 《WEB+DB PRESS Vol.51》 中 的 连载 《SQL 大 脑 学 院 》* 第 7 回 第 163 页 图 2 
































在 数据 库 检 索 中 ， 如 果 字 段 类 型 为 数值 型 或 较 小 的 数据 类 型 ， 创 建 索 
引 能 够 提高 检索 效率 。 

但 是 ， 如 果 在 文本 缺乏 一 致 性 的 情况 下 强制 使 用 索引 ， 就 会 出 现 数据 
量 增 大 等 问题 。 这 时 就 需要 使 用 全 文 搜索 引擎 。 全 文 搜索 引擎 有 很 多 种 ， 











具体 如 ED 所 示 。 
全 文 搜索 引擎 


全 文 搜索 引擎 说 明 


Senna 是 一 个 可 嵌入 式 的 全 文 搜索 引擎 ( 源 自 日 本 )， 将 其 嵌入 数据 库 
Senna 管理 系统 或 脚本 语言 处 理 系统 中 能 够 增强 全 文 搜索 功能 。 除 MySQL 
和 PostgreSQL 以 外 ，Senna 也 适用 于 Perl、Java、Python 等 语言 
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Apache Lucene、 ”Apache Lucene 是 一 个 用 Java 构建 的 全 文 搜索 引擎，Apache Solr 是 一 
Apache Solr 个 基于 Lucene 的 搜索 平台 

































































faah Elasticsearch 是 一 个 基于 Lucene 的 全 文 搜索 引擎 。 我 们 可 以 在 AWS 
服务 上 轻松 部 署 和 使 用 Elasticsearch 
Groona 是 日 本 开发 的 一 个 全 文 搜索 引 警 。 它 能 够 快速 添加 或 删除 文 
Groona 档 ， 在 文档 更 新 时 也 能 进行 搜索 ， 还 可 以 使 用 Fluentd 对 Groona 进行 
























































扩展 
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二 倒 排 索引 


在 进行 全 文 检索 时 ， 我 们 需要 用 索引 来 存储 出 现 过 某 个 单词 的 文档 以 
及 单词 在 文档 中 出 现 的 位 置 等 信息 (人 参照 轿 昌 BE )- 
1 于 需要 保存 的 是 单词 、 出 现 过 该 单词 的 文档 ， 以 及 单词 在 文档 中 出 
现 的 位 置 等 信息 的 键 值 对 ， 所 以 我 们 既 可 以 使 用 KVS， 也 可 以 使 用 关系 
型 数据 库 管 理 系统 。 
可 以 使 用 分 词 器 (tokenizer ) 将 句子 分 割 成 单词 或 指定 长 度 的 字符 































































































串 。 分 词 带 在 分 割 句子 时 ， 可 以 将 词素 分 析 的 结果 、N-Gram 、 空 格 和 标 


-= 国 醒 


点 符号 等 作为 分 隔 符 。 











单词 -文档 ”单词 -文档 ID、 
ID 的 数据 表 。 词 在 文档 中 出 现 的 信 
置 的 数据 表 























倒 排 索引 


强 小 波 和 矩阵 


在 进行 文本 检索 或 在 数组 中 检索 元 素 时 ， 使 用 小 波 和 矩阵 数据 结构 能 够 
加 快 检索 速度 ( 车 ) ). 

小 小 和 矩阵 与 小 波 变 换 是 两 个 不 同 的 概念 。 小 波 和 矩阵 是 把 数据 分 成 两 部 
分 来 构建 一 棵 二 又 小 波 树 。 把 数值 数组 中 大 于 或 等 于 某 个 数值 的 元 素 设 为 
1， 小 于 该 数值 的 元 素 设 为 0， 于 是 数组 元 素 就 被 分 成 了 两 个 数组 。 然 后 
对 这 两 个 数组 进行 同样 的 操作 ， 如 此 迭代 之 后 就 得 到 了 一 个 由 0 和 1 组 成 
的 二 叉 树 ， 这 个 二 又 树 既 可 以 作为 二 进 制 文件 处 理 ， 也 可 以 作为 文本 文件 
处 理 。 
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表示 上 述 数值 的 矩阵 就 称 为 小 波 和 矩阵。 小 波 树 和 小 波 和 矩阵 既 可 以 用 于 
创建 索引 ， 也 可 以 用 于 图 形 网 络 分 析 ， 应 用 范围 很 广 。 





Pe 一人 


小 波 树 
0100101101011010 


01011011110110011|TF 











010lo10o1lo1ol10110 
IDUDEBIGIIDI 




















小 波 树 和 小 波 和 矩阵 
摘自 《小 波 树 的 世界 》" 第 26 页 


在 大 型 文本 文档 中 检索 字符 串 时 ， 使 用 BWT ( Burrows-Wheeler 

Transform， 块 排序 压缩 ) ( 参照 gEE ) 和 FM-Index 压缩 查询 算法 进行 
会 索 有 助 于 提高 检索 效率 。 

BWT 对 需要 转换 的 字符 串 进 行 循 环 移 位 ， 每 次 循环 1 位 ， 生 成 与 字 
符 数 目 相 同 的 循环 字符 串 ， 然 后 它 会 将 所 有 循环 字符 串 按 照 字 典 序 进行 排 
序 ， 记 录 排 序 后 每 个 循环 字符 串 的 最 后 一 个 字符 。 这 些 字符 组 成 的 字符 串 
就 是 BWT 的 输出 。 

在 块 排序 算法 的 日 文 维基 百科 中 ， 有 cacao 变换 后 得 到 ccoaa 的 例子 。 
重复 循环 排序 的 过 程 还 能 得 到 原始 的 字符 串 。 由 于 变换 后 相似 的 字符 位 置 
连续 ， 所 以 BWT 可 作为 压缩 算法 的 预 处 理 需 使 用 ， 而 且 它 已 经 整合 到 了 
bzip2 命令 中 。 如 果 使 用 普通 方法 进行 变换 ， 变 换 后 文本 所 需要 的 内 存 容 
量 就 会 0 所 以 算法 中 有 提高 内 存 使 用 效率 的 设计 。 

字符 串 经 过 BWT 变换 后 可 用 于 检索 ， 这 时 原 字符 串 中 会 添加 一 个 结 
束 符号 。 
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使 用 FM-Index 来 检索 字符 串 能 够 提高 检索 速度 。 特 别 是 在 DNA 序 
列 等 文本 文档 中 ， 由 于 字符 种 类 少 ”“， 存 在 大 量 的 相同 字符 串 ， 所 以 使 用 
FM-Index 能 提高 检索 效率 。 用 1 个 字符 表示 1 个 碱 基 ， 人 类 基因 组 大 约 
有 3 GB 的 数据 量 。BWA (Burrows-Wheeler Aligner ) 是 一 球 序列 比 对 软 
件 ， 它 通过 BWT 建立 索引 ， 并 结合 FM-Index 进行 完全 一 致 检索 ， 从 而 
迅速 识别 出 特定 的 碱 基 序 列 。 该 软件 还 可 以 调整 模糊 检索 的 功能 和 检索 结 
果 不 匹 配 时 的 惩罚 项 。 


PE ewr 


关于 BWT， 大 家 可 以 参考 维基 百科 
中 有 关 块 排序 的 介绍 。 





















































人 人 类 基因 组 由 A、G、C、T 四 个 字符 组 成 ， 大 约 有 3 GB 的 数据 量 。 
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语义 网 络 和 语义 网 





下 面 来 介绍 语义 网 络 和 语义 网 。 


要 点 、 6@ 语义 网 络 名 本体 
名 链接 数据 © RDF 
© SPAROL 


时 语义 网 络 








在 构建 人 工 智 能 的 过 程 中 ， 让 机 器 理解 人 类 的 自然 语言 是 一 项 非常 重 
要 的 工作 。 但 是 ， 机 器 不 可 能 完全 掌握 词语 的 含义 ， 就 连 我 们 人 类 也 是 在 
成 长 的 过 程 中 根据 词语 的 相对 关系 来 逐渐 理解 其 含义 的 。 

如 果 把 语言 看 作 一 种 符号 ， 机 带 在 理解 符号 指称 的 概念 时 所 发 生 的 问题 
就 称 为 符号 接地 问题 。 为 了 解决 这 个 问题 ， 语 义 网 络 应 运 而 生 [EEC )- 








is-a 表示 概念 之 间 的 包含 关系 ， 
has-a 表示 属性 或 状态 








下 本 语义 网 络 





语义 网 络 是 一 个 有 向 图 或 无 向 图 ， 其 顶点 表示 概念 ， 边 表示 概念 之 间 
的 语义 关系 。 
is-a 和 has-a 是 两 个 比较 重要 的 语义 关系 ， 其 中 is-a 表示 概念 之 间 的 
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包含 关系 ，has-a 表示 属性 或 状态 。 例 如 A is-a B 表示 A 是 B 的 下 位 概念 ， 
B 是 A 的 上 位 概念 ， 也 就 是 说 B 包含 A。A has-a B 表示 A 处 于 状态 B。 


自 20 世纪 70 年 代 中 期 以 来 ,为 了 让 机 器 自主 获得 概念 ， 人 们 对 概念 
体系 ， 即 “构建 本 体 ” 的 需求 越 来 越 大 。 
如 果 说 语义 网 络 表 示 概 念 之 间 的 语义 关系 ， 那 么 本 体 就 是 在 语义 网 络 
的 基础 上 加 上 元 数据 的 数据 描述 模型 。 被 构建 的 不 同 领域 ( 参照 ) 
的 本 体会 描述 个 体 (实例 )、 概 念 (类 )、 属 性 和 关系 。 


TE 气 二 
领域 指 某 个 概念 所 属 的 特定 领域 。 例 如 业务 所 需要 的 知识 和 经 验 就 称 为 领域 
知 误 。 


























be 








本 体 概念 之 间 的 语义 相关 性 描述 方便 我 们 检索 网 页 数据 。 例 如 在 使 用 
某 个 单词 进行 检索 时 ， 该 单词 的 同义词 或 反义词 也 会 出 现在 检索 结 
我 们 把 这 种 基于 概念 及 其 语义 进行 网 页 信息 检索 和 自动 处 理 的 技术 称 为 语 
义 网 。 

本 体 在 分 子 生物 学 领域 的 应 用 已 有 十 几 年 的 历史 ， 对 于 研究 中 发 现 的 
基因 ， 人 们 基于 其 特性 构建 了 基因 本 体 ( Gene Ontology，GO )。 基 因 本 体 
涉及 的 基因 分 为 三 大 类 ， 分 别 池 盖 生 物 学 的 三 个 方面 。 它 们 分 别 是 
biological process ( 生物 过 程 )、cellular component ( 细胞 组 分 ) 和 
molecular_ function ( 分子 功 能 )。 在 生物 信息 学 领域 ， 基 因 本 体 用 于 进行 
基因 的 功能 分 析 和 相似 性 分 析 等 〈 )。 
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Current filters 
Data source: FlyBase 
Y Filter tree view 四 


Filter by ontology- Filter Gene Product Counts [View Options 

Ontology ata source 。 Species [ree view ®@Full ©compact 
Tl = 去 

biological process nolis carolinensis 

cellular component ldictyBase rabidopsis thaliana 

Imolecular function ~ | | | EB » | Aspergillus brasi ~ 


回 all : all [14450 gene products] bE Actions,.. 
回 加 GO:0008150 : biological_process [13257 gene products] Last action: Opened 


G0:0031012 
日 四 GO:0005575 : cellular_component [11468 gene products] E ‘Graphical View 



























































器 加 Go:0005623 ; cell [6155 gene products] Permalink 


加 GO:0030054 : cell junction [149 gene products] 
加 GO:0044464 : cell part [6155 gene products] 
日 加 GO:0005576 : extracellular region [1016 gene products] E Graphviz dot 
回 四 GO:0048046 : apoplast [0 gene products] 
回 @ Go:0070062 : extracellular exosome [16 gene products] 
回 @ GO:0010367 : extracellular isoamylase complex [0 gene products] 
日 @ GO:0031012 : extracellular matrix [197 gene products] 三 
加 回 GO:0097311 : biofilm matrix [0 gene products] 
回 @ Go:1990971 : EMILIN complex [0 gene products] 
回 @ Go:0044420 : extracellular matrix component [14 gene products] 
回 @ Go:1990972 : multimerin complex [0 gene products] 
回 加 GO:1990377 : organomineral extracellular matrix [0 gene products] 
回 四 GO:0005578 : proteinaceous extracellular matrix [62 gene products] 


基因 本 体 




















2005 年 之 后 ， 本 体 表达 模型 开始 用 于 表达 情感 和 颜色 等 接近 于 自然 
语言 的 信息 ， 计 算 机 开始 通过 本 体 来 理解 单词 和 术语 之 间 的 概念 关系 。 构 
建 本 体 就 是 把 因 人 、 因 行业 、 因 领域 和 场景 而 异 的 词语 概念 进行 共享 和 通 
用 化 。 

为 了 让 本 体 在 未 来 得 到 充分 的 应 用 ， 我 们 要 构建 并 开放 庞大 的 本 体 知 
识 库 来 整合 这 些 本 体 ， 这 一 点 非常 重要 。 这 样 一 来 ， 当 前 以 人 为 主要 使 用 
者 的 本 体 就 能 供 计算 机 使 用 。 
































乾 链接 数据 








进入 21 世纪 后 ,语义 网 领域 中 开始 使 用 HTML 标签 来 创建 网 页 间 、 
网 站 间 、 文 档 间 的 连接 关系 数据 库 ， 检 索 结果 的 质量 进一步 得 到 提升 。 




















在 这 个 过 程 中 人 们 逐渐 完善 了 SEO ( Search Engine Optimization， 搜 
索引 擎 优化 ) 和 OGP (Open Graph Protocol， 开 放 内 容 协议 ) 等 优化 搜索 
引 葡 的 方法 。 这 些 方 法 在 让 机 带 读 取信 息 和 解释 信息 方面 是 目前 最 为 先进 
的 技术 。 
通过 “让 机 器 读 取信 息 并 分 享 信息 ”的 方法 和 技术 来 表示 的 数据 称 为 
链接 数据 。 
通过 使 用 SEO 技术 ， 网 页 逐渐 可 以 包含 数 















































庞大 的 元 数据 ， 但 是 这 


二 
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项 技术 对 数据 本 身 和 概念 的 作用 并 不 明显 。 在 这 种 情况 下 ，2010 年 之 后 
针对 开放 数据 ， 人 们 不 断 推进 LOD ( Linded Open Data， 关 联 开放 数据 ) 
的 构建 工作 。 现 在 ,日 本 的 国情 调查 等 统计 信息 也 可 以 作为 LOD 进行 处 
理 了 。 








RDF 

RDF ( Resource Description Framework， 资 源 描述 框架 ) 是 一 种 用 于 
描述 Web 资源 的 标记 语言 。 它 是 一 个 处 理 元 数据 的 应 用 ， 也 是 实现 语义 
网 的 重要 技术 之 一 。RSS ( RDF Site Summary，RDF 站 点 摘要 ) 就 是 一 个 
很 好 的 RDF 的 应 用 示例 。 男 外 ， 将 RDF 扩展 后 可 得 到 OWL (Web 
Ontology Language， 网 络 本 体 语言 )。 它 是 一 种 本 体 描述 语言 ， 可 用 于 交 
换 网 站 上 的 本 体 数据 。 

RDF 采用 三 元 组 的 结构 来 描述 资源 ( 为 





























P (谓语 ) 


S (主语 ) 
dbpedia-ow| :capital 


dbpedia: Japan dbpedia: Tokyo 


dbpedia-owl: leaderName 


dbpedia:Tokyo dbpedia:Shintaro_ishihara 



































时 URI 使 用 相同 节点 来 连接 两 个 攻 


dbpedia-owl:capita 


dbpedia: Japan dbpedia: Tokyo 


dbpedia-ow| : leaderName 


dbpedia:Shintaro_ishihara 








三 元 组 


摘自 幻灯 片 《什么 是 Linded Open Data》 

















三 元 组 由 主语 (S)、 谓 语 (P) 和 宾语 (0) 三 部 分 组 成 ， 这 三 个 家 
分 可 任意 对 应 URI、 字 面 量 (literal ) 和 空 自 节 点 中 的 某 一 项 。 我 们 可 以 






































中 原 幻灯 片 名 为 [Linded Open Data 上 人 于 上 译 者 注 
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用 <> 表示 URI， 用 "" 表示 字面 量 ， 以 此 来 加 以 限制 区 别 。 如 果 按 照 
SPO 的 顺序 进行 排列 ， 多 个 三 元 组 相连 时 就 很 难 分 清 哪个 是 主语 ， 所 以 可 
在 SPO 的 结尾 用 句点 (. ) 来 分 隔 每 一 个 三 元 组 。 某 个 SPO 中 的 O 可 能 
对 应 其 他 三 元 组 中 的 S， 将 它们 连接 到 一 起 就 得 到 了 链接 数据 。 

我 们 把 三 元 组 称 为 V-Triples ( [ 瑟 部 到 网 玖 )， 假 设 构成 V-Triples 
的 节点 是 33.8% 这 样 带 单位 的 数字 ， 我 们 可 以 将 该 节点 进一步 细 分 为 33.8 
和 %。 不 过 细 分 时 会 产生 空白 节点 ， 我 们 可 以 在 空白 节点 ID 中 使 用 _: 作 
为 开头 ， 添 加 任意 名 称 ( 国定 P| 中 的 :degree )。 









































[号 到 PR N-Triples 的 语法 示例 


<http://example.org/tokyo/survey/temperature/A00101> 
<http://example.org/tokyo/terms/ 气 温 > _:degree . 


_:degree <http://www.w3.org/1999/02/22-rdf-syntax-ns#value> "33.8" . 


_:degree <http://example.org/tokyo/terms/unit> <http://example.org/ 
tokyo/terms/degree> . 


Turtle 的 语法 示例 
@base <http://example.org/tokyo/survey/temperature/> . 
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . 
@prefix ex: <http://example.org/tokyo/terms/> . 
<A00101> ex: 气 温 _:degree . 
四 ee Sve WHE 


eeenew .Une dee.. 











我 们 可 以 使 用 关系 型 数据 库 管理 系统 或 SPARQL ( 后 述 ) 的 服务 器 来 
存储 RDF 数据 。 


2 SPARQL 


在 对 使 用 RDF 描述 的 信息 进行 检索 、 添 加 或 更 新 时 ， 我 们 可 以 使 用 
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SPARQL ( SPARQL Protocol and RDF Query Language ) 查询 语言 。 
SPARQL 可 以 越过 HTTP 进行 查询 。 向 SPARQL 端点 的 URL 中 添加 

查询 参数 并 发 送 查 询 请 求 后 ， 我 们 会 得 到 XML 或 JSON 格式 的 查询 结果 。 
SPARQL 的 查询 和 响应 示例 如 国宝 于 3 二 下 祖 本 于 寺 | 所 未 。 








(让 西 王 焉 所 查询 
PREFIX dc: <http://purl.org/dc/elements/1.1/> 
SELECT ?book ?who 


WHERE { ?book dc:creator ?who } 


全 古寺 EE 请 ; 


GET /sparql/?query=PREFIX%$20dc%3A%20%3Chttp%3A%2F%2Fpurl .or 
g%2Fdc%2Felements%2F1 .1%2F%3E%20%0ASELECT%S20%3Fbook%20%3Fwho 
%20%0AWHERE%S20%7BS20%3Fbook%20dc%3Acreator%20%3Fwho%20%7DS$0A HTTP/1.1 


Host: www.example 


User-agent: my-sparql-client/0.1 


响应 
HTETPYISTL 200 .OK 
Dates Fri, 06 May 2005 20%55;12 GMT 
Server: Apache/1.3.29 (Unix) PHP/4.3.4 DAV/1.0.3 
Connection: close 


Content-Type: application/spargql-results+xml 


<?xm] version="] .0"?> 


<sparqgl xmlns="http://www.w3.org/2005/sparql-results#"> 
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<head> 
<variable name="book"/> 
<variable name="who"/> 
</head> 
<PeauUlta 
<result> 


<binding name="book"><uri>http://www.example/book/book5</uri></ 


binding> 
<binding name="who"><bnode>r29392923r2922</bnode></binding> 


</result> 


</sparqgql> 





可 用 于 构建 SPARQL 端点 的 服务 器 软件 有 Apache Jena Fuseki、Sesame、 
Virtuoso 等 开源 程序 。 此 外 ， 对 RDF 提供 官方 支持 的 Oracle Database 也 支 
持 在 Apache Jena Fuseki 上 使 用 RDF ( js 


构建 SPARQL 端点 的 服务 器 软件 
Apache Jena Fuseki 
RDF4J 
Virtuoso 


7 RDF Semantic Graph support for Apache Jena 





近年 来 ， 
理 的 数 
以 人们 对 计算 机 性 能 的 要 求 也 变 高 了 。 尽 管 使 用 个 人 计算 
机 或 GPU 扩展 板 也 可 以 执行 一 些 处 理 ， 但 在 某 些 情况 下 
还 是 需要 用 到 规模 更 大 的 分 布 式 处 理 器 。 本 章 ， 笔 者 会 先 





} 布 式 计算 


TT 


以 机 器 学 习 和 深度 学 习 为 首 的 数据 分 析 中 需要 处 





居 量 越 来 越 大 ， 对 处 理 速度 的 要 求 也 越 来 越 高 ， 所 




















介绍 分 布 式 计 算 环境 ， 然 后 对 分 布 式 机 器 学 习 和 深度 学 习 





平台 进行 说 明 。 
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下 面 来 介绍 分 布 式 计算 和 并 行 计算 。 














ee 分 布 起 证 (4 行 计 时 





对 分 布 式 计算 和 并 行 计算 

以 前 的 计算 机 性 能 远 低 于 现在 ， 那 时 人 们 就 在 思考 如 何 快速 完成 耗 时 较 
长 的 处 理 ， 而 分 布 武 证 算 (加 帮 | ) 和 并 行 计算 就 是 解决 该 问题 的 方法 之 一 。 

分 布 式 计算 和 并 行 计算 需要 配置 多 人 台 计算 机 来 完成 耗 时 较 长 的 处 理 或 
进行 大 规模 的 计算 ， 所 以 实现 分 布 式 计算 和 并 行 计算 的 系统 称 为 天 观 模 评 
算 机 系统 或 大 型 计算 机 系统 。 

分 布 式 处 理 有 多 种 实现 方式 ， 比 如 通过 网 络 连接 多 台 计 算 机 来 实现 大 
规模 处 理 、 在 单个 计算 机 中 进行 并 行 处 理 等。 









































众 核 处 理 器 多 线程 


GPGPU 、 进 程 间 通信 
FPGA 





Hadoop 


Apache Spark 





分 布 式 计算 的 方法 和 分 布 式 架构 


大 型 计算 机 系统 


20 世纪 末 ， 在 同等 处 理 能 力 下 ， 曾 经 的 大 型 计算 机 体积 已 经 缩小 到 了 台式 机 
大 小 ， 从 体积 上 来 说 已 经 不 能 称 为 “大 型 ” 了， 但 它 的 名 称 被 保留 了 下 来 。 





























下 面 来 介绍 硬件 配置 。 


要 点 、@ 网 格 计 算 © GPGPU 
@ 众 核 处 理 器 © FPGA 





志 网 格 计算 





一 些 国家 或 高 校 的 研究 机 构 会 把 多 台 计 算 机 互相 连接 起 来 执行 计算 处 
理 。 我 们 称 这 些 计 算 机 为 超级 计算 机 ， 把 使 用 超级 计算 机 等 进行 的 超大 规 
模 计算 称 为 高 性 能 计算 ( High Performance Computing，HPC )。 

日 本 最 知名 的 超级 计算 机 有 “ 京 ”( 日 本 理化 学 研究 所 )、 “TSUBAME” 
(东京 工业 大 学 ) 和 地 球 模拟 器 ( 日 本 海洋 研究 开发 机 构 ) 等 ， 这 些 超级 
计算 机 的 节点 数 在 100 一 80 000 以 上 ， 并且 每 个 节点 至 少 包 含 1 个 CPU。 

有 些 超 级 计算 机 是 每 个 节点 上 都 有 超 高 速 内 存 ( RAM )， 也 有 一 些 超 

















级 计算 机 是 所 有 节点 共享 内 存 。 为 了 确保 所 有 节点 都 可 以 访问 存储 器 ,我 
们 通常 会 使 用 Lustre 文件 系统 ( 参照 四 ) 等 共享 存储 系统 。 为 了 进行 
计算 处 理 ， 多 台 计 算 机 相互 连接 组 成 分 布 式 计算 系统 的 各 个 节点 ， 这 些 计 
算 机 称 为 网 格 计算 机 。 由 于 网 格 中 的 各 个 节点 之 间 通 过 高 速 网 络 进行 通 
信 ， 网 络 必须 具备 较 好 的 耐 故障 能 力 ， 所 以 我 们 通常 使 用 Infiniband 来 建 
立 连接 ， 而 不 使 用 LAN ( BE 车 ] ). 
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计算 机 集群 
超级 计算 机 


Lustre 文 件 系统 





共享 存储 系统 
摘自 《Lustre 文件 系统 的 概要 和 导入 指引 》 


| 小 同 | Lustre 文 件 系 统 


Lustre 文件 系统 有 一 个 MDS ( MetaData Server， 元 数据 服务 器 )，MDS 上 
有 一 个 MDT ( MetaData Target， 元 数据 存储 节点 ) 来 存储 Lustre 的 元 数据 信息 。 
系统 中 使 用 OSS ( Object Storage Server， 对 象 存储 服务 器 ) 来 管理 为 文件 对 象 
数据 提供 存储 的 OST ( Object Storage Target， 目 标 存 储 对 象 )。Lustre 文件 系统 
就 是 通过 磁盘 阵列 ( RAID ) 等 方式 将 MDS 和 OSS 连接 起 来 构建 的 一 个 具有 宛 余 
能 力 的 大 型 存储 器 。 













































































另外 ,与 网 格 计算 机 和 超级 计算 机 一 样 ， 由 多 个 节点 组 成 的 计算 机 系 
统 之 间 相 互通 信 并 进行 计算 处 理 的 还 有 计算 机 集群 ( 简称 集群 )。 
网 格 计算 机 也 是 一 种 集群 形式 ， 但 是 我 们 可 以 把 网 格 计算 机 看 作 一 种 
能 够 使 多 个 集群 作为 通用 基础 设施 使 用 的 中 间 件 。 网 格 计算 机 会 尽量 使 用 
相同 体系 结构 的 计算 机 ， 通 过 提升 每 台 计 算 机 的 性 能 (纵向 扩展 ) 来 提升 
整体 的 性 能 ， 而 集群 仅 通 过 增加 计算 机 的 数量 来 提升 整体 性 能 (横向 扩 
展 )。 组 成 集 素 统 的 计算 机 可 以 在 号 或 失 作 系统 方 而 有 所 不 司 (参照 
上 





















































QD 原 资料 名 为 [Lustre 7 了 了 了 儿 沁 又 末 信 概要 上 于 入 手 顺 ( 人 Vs 区 | 





译 者 注 
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和 3 组成 集 祥 系统 的 计算 机 


寻找 外 星 智慧 生命 计划 SETI 中 的 “SETI@home” 是 一 个 分 布 式 计算 项 目 ， 
与 的 机 器 中 包括 个 人 计算 机 ， 用 户 安装 分 析 程 序 后 即 可 加 入 这 个 分 布 式 计 算 项 目 

















六 
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随 着 与 上 述 网 格 计算 机 不 同 的 集群 技术 以 及 虚拟 化 技术 的 迅猛 发 展 ， 
目前 常用 的 AWS ( Amazon Web Services )、GCP ( Google Cloud Platform )、 
Microsoft Azure 等 的 PaaS ( Platform as a Service， 平 台 即 服务 ) 和 IaaS 
(Infrastructure as a Service， 基 础 设施 即 服务 ) 逐渐 得 到 发 展 。 


除了 完成 运算 处 理 ，CPU 还 有 其 他 功能 ， 比 如 与 其 他 芯片 进行 数据 交 
换 、 控 制 计算 机 等 。 单 CPU 无 力 完成 的 运算 可 以 由 采用 独立 运算 单元 的 协 处 
理 塘 〈co-processor， 也 叫 辅助 处 理 需 ) 辅助 处 理 。FPU ( Floating Point Unit， 
浮 点 运算 单元 ) 是 专门 用 于 处 理 浮 点 运算 的 协 处 理 器 。 以 前 的 FPU 是 一 种 单 
独 芯 片 ， 但 随 着 大 规模 集成 电路 (LSI ) 集成 度 的 提高 以 及 CPU 性 能 的 提升 ， 
FPU 与 CPU 之 间 的 距离 逐渐 缩小 ， 最 后 三 家 把 FPU 集成 到 了 CPU 内 。 

另 一 方面 ， 图 形 协 处 理 器 因为 对 运算 速度 没有 过 高 的 要 求 ， 所 以 逐渐 
发 展 成 独立 显卡 ， 专 门面 向 从 事 3DCAD 和 视频 剪辑 等 工作 的 用 户 。 

进入 21 世纪 后 ， 不 仅仅 是 2D 图 像 ， 图 形 加 速 器 ( graphics accelerator ) 还 
能 对 纹理 图 像 等 3D 图 像 进行 高 速 运算 ， 并 将 其 转换 为 图 像 数 据 进行 传输 。 图 
乡 加 速 器 的 核心 就 是 GPU ( Graphics Processing Unit， 图 形 处 理 器 ) ( 加 Egg 史 )。 






































































































































区 攻 KR GPU 的 产品 示意 图 


现 
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通过 使 用 DirectX ( 参照 ) 提供 的 接口 ， 开 发 者 能 够 在 
Windows 平台 直接 访问 硬件 。 曾 经 推出 支持 DirectX 的 芯片 的 NVIDIA 公 
司 于 2006 年 又 推出 了 集成 开发 环境 CUDA (Compute Unified Device 
Architecture， 统 一 计算 架构 )。 从 此 以 后 ，C 和 Fortran 等 程序 通过 调用 
CUDA 就 能 够 将 GPU 用 于 图 像 以 外 的 领域 的 计算 ， 属 于 通用 图 形 处 理 需 
( General-Purpose computing on GPU，GPGPU ) 和 基于 GPU 的 通用 计算 的 
时 代 正 式 拉 开 帷幕 。 





















































| “小 贴 十 | DirectX 


在 Windows 操作 系统 下 显示 图 像 时 ， 系 统 的 开销 较 大 ， 例 如 为 了 能 够 在 游戏 
中 持续 快速 地 绘制 图 形 ， 程 序 需要 直接 访问 显存 。 但 是 ，Windows 系统 最 初 只 提 
+ GDI1 ( Graphics Device Interface， 图 形 设备 接口 )， 这 引发 了 人 们 的 诸多 抱怨 。 
于 是 出 现 了 DirectX ( 特别 是 DirectDraw 和 Direct3D ) 和 OpenGL 等 库 来 让 用 户 
直接 访问 显卡 硬件 ， 快 速 绘图 。 



























































































































































GPU 专门 用 来 处 理 图 形 计 算 任务 ， 所 以 很 擅长 矩阵 运算 等 计算 。 但 
CPU 支持 多 种 不 同类 型 的 运算 ， 所 以 它 在 简单 计算 方面 的 表现 就 没有 那么 
突出 了 。 男 外 ， 由 于 每 个 CPU 芯片 都 承担 着 大 量 的 处 理 任务 ， 所 以 增加 
内 核 数量 又 会 在 密度 和 发 热量 方面 产生 问题 。 截 至 2016 年 ,通用 CPU 的 
内 核 数量 仅 为 8 个 。 而 GPU 的 内 核 数量 是 以 1000 或 2000 为 单位 进行 计 
数 的 。GPU 能 够 执行 并 行 处 理 ， 并 且 具 备 专用 内 存 ， 即 显存 (VRAM )。 
所 以 ,我 们 还 可 以 把 基于 CUDA 平台 的 GPU 作为 运算 处 理 板 使 用 ， 以 此 
来 加 快 图 像 识别 、 语 音 识 别 等 机 器 学 习 和 深度 学 习 的 处 理 过 程 。 


2010 年 以 来 ，8 核 处 理 器 成 为 面向 大 众 市 场 的 主流 处 理 器 。 一 些 高 性 
能 服务 器 上 也 会 使 用 12 核 处 理 器 或 16 核 处 理 器 。 还 有 一 种 叫 作 众 核 处 理 
器 的 处 理 器 ， 其 内 核 数 达 数 百 个 ， 远 超 普通 CPU。 
日 本 PEZY Computing 公司 开发 的 具有 1024 个 核心 的 微 内 核 处 理 顺 
PEZY-SC ( ) 非常 有 名 ， 从 2015 年 开始 在 日 本 理化 学 研究 所 的 超 
级 计算 机 Shoubu ( 营 薄 )、 日 本 高 能 加 速 器 研究 机 构 的 超级 计算 机 Suiren 
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(睡莲 ) 和 Suiren Blue ( 蓝 睡 莲 ) 上 投入 使 用 ( )。 








PEZY-SC 众 核 处 理 器 ( 2014 ) 


摘自 PEZY Computing 官网 

















Suiren 在 4 个 冷却 水 槽 中 进行 液 泡 式 冷却 的 全 景 照片 ( 左 )，Suiren 
Blue 的 正面 照 和 侧面 照 ( 右 ) 

摘自 《KEK 小 型 超级 计算 机 “Suiren Blue” 和 “Suiren” 分 别 获得 Green500 绿色 
超级 计算 机 排行 榜 的 第 二 名 和 第 三 名 》 

@ 高 能 加 速 器 研究 机 构 ( KEK ) 

















中 原文 章 名 为 KE 多 小 型 又 一 人 一 2y> 已 工 一 夕 『Suiren Blue( 青 睡 道 )」 上 
『 Suiren( 睡 道 ) | 克 又 入 宇 二 消费 电力 性 能 亏 志 之 分 『 Green500 」 下 云 机 会 术 世界 
第 二 位 、 第 三 位 在 获得 上 译 者 注 








292 | 图 解 人 工 智能 

















“» FPGA 


如 果 需 要 加 快 处 理 速度 ， 从 硬件 方面 加 速 的 效率 通常 比 软件 算法 的 














高 ， 包 含 GPU 的 显卡 就 是 一 个 很 好 的 例子 。 
































如 果 量 身 定制 一 个 通过 硬件 来 完成 特定 处 理 任务 的 大 规模 集成 电路 和 
回路 ， 虽 然 能 够 很 好 地 完成 任务 ， 但 也 失去 了 通用 性 ， 我 们 很 难 频 繁 修改 
硬件 。 为 了 解决 这 个 问题 ， 人 们 开始 使 用 开发 环境 EPGA (Field- 
Programmable Gate Array， 现 场 可 编程 门 阵 列 ) 来 蔡 代 大 规模 集成 电路 。 
虽然 速度 会 有 所 下 降 ， 回 路 规模 也 会 变 小 ， 但 我 们 可 以 任意 修改 回路 。FPGA 
擅长 处 理 高 速 数据 流 ， 可 用 于 视频 压缩 和 视频 转换 等 对 实时 性 要 求 较 高 的 
场合 。FPGA 兼 具 了 硬件 和 软件 的 便捷 性 ， 很 适合 在 原型 开发 中 使 用 。 

另外 ，FPGA 的 功 耗 远 小 于 GPU 的 功 耗 ， 所 以 在 精度 要 求 不 太 高 的 







































































情况 下 ， 我 们 可 以 采用 FPGA 进行 浮 点 运算 等 计算 处 理 。 在 对 











GPU 要 求 较 高 的 处 理 中 ,使 用 FPGA 是 实现 节能 的 第 一 步 。 














| CPU 和 


Microsoft 通过 大 规模 部 署 FPGA 来 搭建 服务 器 进行 特征 提取 和 机 器 
学 习 ， 并 将 其 应 用 于 Bing。 一 些 大 学 的 研究 将 FPGA 用 在 卷 积 神经 网 络 



































和 循环 神经 网 络 等 深度 学 习 模 型 中 进行 图 像 识 别 等 模式 识别 。 





有 报告 比较 了 基于 Xilinx Virtex-5 SX240T 和 基于 NVIDIA Tesla C870 
的 卷 积 神经 网 络 的 性 能 ， 前 者 是 后 者 的 1.4 倍 。 此 外 , 在 Xilinx Zynq 上 并 


行 连接 卷 积 神经 网 络 的 回路 后 ， 能 源 效 率 约 是 GPU 和 CPU 的 10 





倍 。 
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软件 配置 





下 面 来 介绍 软件 配置 。 














要 点 、 6@ 多 进程 
包 多 线程 
© Apache Hadoop ( MapReduce ) 
© HDFS 
包 MapReduce 
© YARN 
© Apache Spark 
© RDD 


程序 在 运行 时 ， 操 作 系 统 会 为 其 创建 一 个 进程 并 分 配 内 存 空间 。 每 个 
进程 所 能 访问 的 内 存 是 互相 独立 的 。 
现代 操作 系统 基本 可 同时 运行 多 个 进程 。 进 程 间 通信 和 就 是 在 不 同 进程 
之 间 传 播 或 交换 信息 。 

为 了 提高 系统 的 数据 处 理 效率 ， 每 个 进程 会 被 分 配 一 个 任务 或 任务 中 
的 一 部 分 数据 来 处 理 。 第 一 个 被 执行 的 进程 称 为 父 进程 ， 由 父 进 程 创建 的 
新 进程 称 为 子 进 程 或 从 进程 。 

父 进程 能 够 被 挂 起 等 待 直到 子 进程 结束 。 父 进程 可 以 在 各 个 子 进 程 完 
成 任务 后 进行 汇总 ( 医 EEE3 )。 





















































294 | 


图 13-6 











































































































多 进程 








在 多 个 CPU 同时 运行 进程 时 使 用 的 信息 传递 协议 是 MPI ( Message 
Passing Interface， 信 息 传递 接口 )。MPI 是 一 个 库 ， 可 以 被 C 和 Fortran 77 


调用 。 它 支持 Socket ( 套 接 字 ) 通信 方式 ， 既 可 以 在 同一 台 计 算 机 的 多 进 
用 ， 也 可 以 在 组 成 集群 系统 的 计算 机 之 间 


程 中 使 


























的 并 行 处 理 9 





P 使 用 oo 








强 多 线程 
一 个 进程 至 少 包 括 一 个 线程 〈 主 线程 )， 系 统 分 配给 一 个 进程 的 内 存 
空间 和 处 理 时 间 通 常 被 主线 程 独占 。 在 使 用 多 个 进程 进行 并 行 处 理 时 ， 每 
个 进程 所 能 访问 的 内 存 空 间 是 互相 独立 的 ， 这 不 仅 导 致 内 存 使 用 效率 低 
下 ， 还 增加 了 构建 程序 的 复杂 度 。 


使 用 多 线程 能 够 缓解 这 些 问题 。 















































多 线程 可 以 共享 进程 的 内 存 空间 。 进 


程 的 主线 程 相当 于 父 线程 ， 可 以 创建 并 运行 子 线程 ( 从 线程 )， 然 后 回收 
子 线程 获取 的 数据 并 继续 进行 处 理 ( )。 
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一 个 进程 内 的 
单线 程 顺 次 执 


行 一 组 命令 














个 进程 内 的 
主线 程 创建 多 
个 子 线程 并 行 
执行 命令 




















单线 程 和 多 线程 


为 了 避免 在 主线 





程 中 进行 耗 时 的 操作 使 主线 程 阻塞 ， 我 们 通常 会 启 














动 子 线程 来 进行 并 行 处 理 。 在 Windows 等 的 图 形 用 户 界面 (Graphical 





User Interface, GUI) 
子 线程 。 























程序 中 ， 主 线程 会 创建 并 运行 UI 线程 或 工作 线程 等 























使 用 OpenMP 可 以 在 源 代码 中 把 单线 程 程序 改写 成 多 线程 程序 。 与 
MPI 不 同 ，OpenMP 不 是 一 个 可 被 程序 调用 的 库 ， 它 是 一 种 可 扩展 的 框架 


语言 (参照 下 JW )， 














能 够 向 编译 囊 发 出 指令 。 





| 小 由 士 | 可 扩展 的 框架 语言 


就 像 JavaScript 





PP 的 AtJS 和 AngularJS。 


寺 Apache Hadoop ( MapReduce ) 


Apache Hadoop 








(Hadoop ) 是 Apache 软件 基金 会 主导 开发 的 开源 项 


目 ， 是 由 原 雅 虎 研 究 院 ( Yahoo Research ) 的 道 : 卡 廷 ( Doug Cutting ) "使 

















中 Hadoop 创始 人 ， 人 称 Hadoop 之 父 。 


用 Java 实现 的 大 规模 分 布 式 计算 框架 ( )s 





译 者 注 
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六 3468 eonpeddeN el6o09 兴学 


外 


Pig 加 四 
Hbase 加 ala 四 
史册 hp 


以 批 处 理 为 核心 的 时 代 rr 





EEEEE3 Hadoop 的 历史 
摘自 Apach Hadoop 官网 


Hadoop 受到 Google 开发 的 Google File System 和 MapReduce 的 启发 ， 
现 已 成 为 一 款 克隆 软件 。 

Hadoop 最 初 由 Apache 软件 基金 会 作为 开源 项 目 全 文 搜索 引擎 Lucene 
的 子 项 目 Nutch ( 参照 四 ) 的 一 部 分 被 正式 引入 ，2006 年 开始 成 为 一 
个 独立 的 子 项 目 。 


[J Apache Nutch 


Apache Nutch 是 基于 网 络 礁 虫 的 网 
络 搜索 系统 。 





Hadoop 主要 由 Hadoop 分 布 式 文件 系统 HDFS ( Hadoop Distributed 
File System ) 和 MapReduce 框架 以 ee 这 些 组 成 
Hadoop 的 程序 集 统称 为 Hadoop 生态 系统 ( 轿 EgE 、 )。 
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ZooKeeper 


YARN MapReduce Spark > 
HDFS Hadoop 的 周边 项 


下 本) Hadoop 生态 系统 























Hadoop 生态 系统 的 说 明 











































































































Oozie Oozie 能 够 创建 工作 流 并 管理 工作 流 的 作业 调度 
庙 Hadoop 通常 使 用 Java 等 来 创建 和 执行 程序 。 使 用 Pig 脚本 能 够 指示 
'8 Hadoop 要 处 理 的 内 容 
Mahout 提供 一 些 机 器 学 习 算 法 的 实现 。 聚 类 和 推荐 系统 等 算法 是 用 
Mahout 


MapReduce 方式 写 的 ， 支 持 百 万 级 别 的 大 规模 数据 处 理 


R connector 包括 RHadoop 和 Oracle 出 售 的 Oracle R Connector for 
R connector Hadoop。 使 用 它们 可 以 从 R 数据 库 接口 访问 HDFS 和 数据 库 系 统 ， 
以 及 描述 和 执行 MapReduce 程序 





























































































































































































































je Hive 由 Facebook 开发 ， 支 持 类 似 SQL 的 结构 化 查询 功能 。Hive 的 
功能 和 Pig 类 似 ， 不 过 它 的 使 用 方式 更 接近 关系 型 数据 库 

Hbase Hbase 是 Hadoop 中 使 用 的 数据 库 ， 是 一 种 键 值 存储 数据 库 系统 
ZooKeeper 是 一 个 应 用 程序 的 协调 服务 ， 管 理 着 Hadoop 集群 中 计生 

ZooKeeper 机 和 系统 正在 处 理 的 程序 。 当 需要 增加 集群 存储 容量 时 ，ZooKeeper 
可 以 完成 增加 计算 机 的 操作 ， 除 此 之 外 ， 它 还 能 更 新 配置 文件 

ee Ambari 是 一 款 基 于 浏览 器 的 Web 程序 ， 能 够 监视 Hadoop 集群 并 修 
改 集群 配置 
YARN 即 Yet-Another-Resource-Negotiator， 意 思 为 男 一 种 资源 协调 

YARN 者 ， 是 一 种 全 新 的 框架 ， 能 够 轻松 创建 任意 的 分 布 式 处 理 框 架 和 应 
用 程序 








Cassandra Cassandra 和 Hbase 一 样 ， 是 一 种 键 值 存储 数据 库 系统 
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( 续 ) 


Hadoop 生态 系统 说 明 


用 户 可 以 使 用 Tez 将 MapReduce 的 并 行 处 理 ( 作业 ) 描述 成 一 个 有 








































































































三 向 无 环 图 ( DAG )， 从 而 有 效 管理 多 阶段 作业 等 复杂 的 工作 流程 
本 Spark 是 一 个 基于 内 存 的 分 布 式 数据 处 理 系统 ， 适 用 于 流 处 理 。 
和 Spark 是 由 Scala 语言 实现 的 ， 可 处 理 的 数据 的 规模 超过 Hadoop 





























HDFS ( Hadoop 分 布 式 文件 系统 ) 是 Hadoop 的 核心 〈 6 
个 HDFS 集群 由 一 个 主 节点 NameNode 和 多 个 从 节点 DataNode 组 成 。 

NameNode 中 存储 了 文件 名 和 权限 等 文件 属性 ， 数 据 被 分 割 为 多 个 特 
定 大 小 的 数据 块 ， 每 个 数据 块 都 会 以 宛 余 的 方式 在 多 个 DataNode 上 存储 
多 份 副 本 ( 默认 是 3 份 )。 这 样 一 来 ， 当 DataNode 节点 发 生硬 件 错误 等 故 
障 导 致 系统 无 法 访问 时 ， 数 据 的 可 靠 性 依旧 能 得 到 保障 。 

需要 注意 ，HDFS 适合 处 理 大 文件 ， 在 处 理 小 文件 时 很 容易 造成 资源 
浪费 。 



































文件 被 分 割 为 多 
存储 文件 权限 等 个 数据 块 ， 每 个 
元 数据 的 3 上 数据 块 都 有 3 个 

副本 在 不 同 的 

DataNode 上 














HDFS 的 结构 
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we MapReduce 


MapReduce 是 一 种 可 用 于 人 处理 数据 的 编程 模型 。 它 的 处 理 过 程 分 为 3 
个 阶段 ， 即 将 数据 分 配 到 多 个 进程 中 进行 并 行 处 理 的 Map 阶段 ， 对 Map 
的 输出 结果 进行 整理 和 汇总 的 Shuffle 阶段 和 Reduce 阶段 。 每 个 阶段 的 输 
入 输出 都 是 键 值 的 形式 。 

如 果 在 Map 阶段 将 数据 分 配 到 MM 个 进程 中 进行 处 理 ， 该 阶段 的 处 理 
时 间 则 降 至 WM， 如 果 在 Reduce 阶段 使 用 N 个 相互 独立 的 进程 进行 处 理 ， 
该 阶段 的 处 理 时 间 会 降 至 IN ( 让 




























































































网 有 对 分 类 和 排序 
数据 的 分 类 和 排序 分 别 进 行 处 理 


区 而 EKE 丁 利 MapReduce 的 处 理 过 程 








最 初 的 Hadoop 由 主 节 点 JobTracker 和 从 节点 TaskTracker 组 成 。 

JobTracker 是 主线 程 ， 负 责 MapReduce 的 作业 管理 。 它 会 将 作业 中 的 
处 理 任务 分 配给 TaskTracker 的 进程 ， 并 监控 TaskTracker 是 否 存 活 。 如 果 
检测 到 任务 失败 ，JobTracker 会 重新 把 这 些 任务 分 配 到 其 他 TaskTracker 上 
运行 ， 所 以 在 任务 失败 时 MapReduce 的 处 理 也 能 继续 。TaskTracker 进程 
会 创建 子 进程 来 执行 任务 并 获取 HDFS 的 信息 。 
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ws YARN 


Hadoop 2.0 版 本 对 MapReduce 框架 做 了 设计 重 构 ， 我 们 称 Hadoop 2.0 
中 的 MapReduce 为 YARN ( )。YARN 由 主 节 点 ResourceManager 
和 从 节点 NodeManager 组 成 ， 在 NodeManager 中 运行 的 ApplicationMaster 
通过 启动 Container 来 运行 任务 。 

NodeManager 会 监视 节点 的 资源 状态 ， 当 ApplicationMaster 需要 启动 
Container 时 ， 它 首先 向 ResourceManager 发 出 任务 请 求 ， 获 取 节 点 的 空闲 
资源 ， 然 后 在 空闲 的 节点 上 启动 Container。 
通过 使 用 YARN，Container 可 以 支持 MapReduce 以 外 的 计算 框架 ， 
例如 后 来 开发 的 Apache Tez 和 Apache Spark。 



































NodeManager 
| NodeManager 
ResourceManager | 于 和 | 进程 [sen ] 


NodeManager 





， 管 理 NodeManager 

， 分 配 Container 

"管理 应 用 程序 的 进度 ,监视 资源 状态 
”确保 得 到 Container 





ApplicationMaster 


”向 ResourceManager 发 送 Container 请 求 | | 运行 应 用 程序 
”启动 Container 运行 应 用 程序 
”管理 应 用 程序 





ES | 
NodeManager 
2 项 汪 国 < 一 全 





EEE YARN 


品 Hadoop 的 使 用 方法 

Hadoop 主要 用 于 批 处 理 。 例 如 ，Hadoop 可 用 于 ETL 这 样 的 数据 预 
处 理 。ETL 是 对 关键 业务 系统 的 数据 进行 抽取 (extrack )、 清 洗 转 换 
(transform )、 继 承 ， 然 后 加 载 (load ) 至 数据 库 的 过 程 。 此 外 ， 我 们 还 可 
以 使 用 Hadoop 生成 月 度 任 务 等 的 汇总 报告 ， 或 基于 Hadoop 和 Mahonut 进 
行 大 规模 机 器 学 习 并 输出 结果 。 
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除 此 之 外 ，Hadoop 还 可 以 作为 业务 数据 分 析 平 台 或 专门 的 数据 分 析 








平台 ， 必 要 时 在 云 平台 上 构建 集群 对 数据 进行 分 析 处 理 。 
2007 年 左右 ,日 本 出 现 了 一 个 名 为 blogeye 的 服务 ， 该 服务 主要 使 月 
Hadoop 和 HBase， 根 据 博 客 等 来 推断 日 本 流行 语 排行 榜 。 
该 服务 利用 爬虫 技术 实时 采集 和 分 析 数 据 ， 更 新 数据 库 中 的 作者 属 4 























vane 





二 


全 





和 关键 字 并 创建 了 流行 语 数据 库 。 目 前 blogeye 已 经 与 AWS 的 Amazon 


EC2/S3 服务 实现 了 集成 。 


we Apache Spark 








Hadoop 是 一 个 大 规模 数据 处 理 分 布 式 系统 ， 主 


古 











于 批 处 理 ， 但 是 











随 着 时 间 的 推移 ， 人 们 对 数据 流 处 理 和 在 线 机 器 学 习 等 实时 数据 处 理 的 需 


求 变 得 越 来 越 大 。 








这 时 ， 大 规模 数据 处 理 分 布 式 系统 Apache Spark ( 以 下 称 为 Spark ) 
应 运 而 生 。Spark 是 一 个 基于 内 存 的 分 布 式 计算 系统 ， 它 可 以 将 数据 扩展 
在 内 存 中 ， 实 现 低 延迟 并 加 快 作业 速度 。 加 州 大 学 伯克利 分 校 的 AMPLab 
于 2009 年 开始 开发 Spark， 于 2013 年 将 Spark 捐赠 给 了 Apache。 

Spark 是 用 Scala 语言 实现 的 ， 也 可 以 用 Java、Python 和 及 运行 。 整 









































个 Spark 主要 由 五 个 模块 组 成 。 一 个 是 Spark 的 核心 模块 Spark Core， 其 
中 包含 了 Spark 的 数据 存储 机 制 (RDD )。 在 Spark Core 的 基础 上 还 有 四 
个 模块 ， 即 可 以 通过 SQL 读 取 数据 的 Spark SQL 、 可 以 处 理 实时 数据 流 的 
Spark Streaming、 机 器 学 习 库 MLLib 和 可 以 处 理 图 数据 的 GraphX。 

Spark 没有 使 用 Hadoop 的 MapReduce， 而 是 使 用 了 YARN 等 集群 管理 




















器 来 进行 分 布 式 计算 。 它 能 够 轻松 访问 Hadoop 中 的 HDFS、Amazon S3， 
还 有 GCP 的 Google Cloud Storage 等 多 种 数据 源 ， 易 用 性 越 来 越 好 





( BES )- 





302 




















MLLib 
(machine 
learning) 


区 而 kKE 梧 Apache Spark 的 模块 


Apache Spark 官网 





Spark GraphX 


Spark SQL 


Streaming (graph) 























于 RDD 
Spark 是 以 RDD (Resilient Distributed Dataset， 弹 性 分 布 式 数据 集 ) 
为 单位 从 数据 源 读 取 数据 进行 计算 的 。 我 们 可 以 将 RDD 看 成 一 个 由 多 个 
分 区 (partition ) 组 成 的 数组 ， 对 它 进行 转化 操作 (transformation ) 和 行 
动 操 作 (action ) ( OE ), 
转化 操作 是 针对 RDD 中 的 元 素 实 施 的 操作 ( 如 map、filter 等 )， 行 
动 操 作 是 针对 RDD 实施 的 聚合 操作 ( 如 count 、collect 、reduce 等 )。 
使 用 持久 化 技术 使 RDD 状态 不 可 变 (immutable )， 就 可 以 在 多 个 操 
作 中 重复 使 用 同一 个 RDD 进行 高 速 计算 ， 无须 再 次 读 取 输 入 数据 。 
































输入 数据 











Apache Spark 的 数据 处 理 概要 
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在 Spark 中 ， 对 数据 进行 分 区 后 才 会 进行 分 布 式 数据 处 理 。 分 区 个 数 
的 多 少 会 影响 处 理 时间 ， 如 果 分 区 数 太 少 ， 在 执行 Shuffle 处 理 时 ， 处 理 
就 会 往 向 部 分 工作 节点 ， 即 NodeManager， 在 严重 的 情况 下 甚至 导致 处 理 
失败 。 

相反 ， 如 果 分 区 数 太 多 ,在 进行 转化 操作 和 行动 操作 时 就 会 增加 系统 
的 开销 ， 因 此 调整 分 区 数 最 好 位 于 100 一 10 000。 

分 布 在 全 国 各 地 的 零售 商 、 电 子 商 务 网 站 、 社 交游 戏 运 营 公 司 等 能 够 
获取 实时 数据 流 的 企业 都 会 用 到 Spark。 有 具体 应 用 示例 有 Spark 机 器 学 习 
库 MLLib、 基 于 图 数据 分 析 库 Spark GraphX 的 推荐 引擎 开发 等 。 在 开发 
过 程 中 ， 有 时 还 可 以 把 基于 Hadoop 的 Hive 用 于 Spark， 以 此 来 提高 效率 。 
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| 机 器 学 习 平台 和 深度 学 习 


‘7 人 
四 








下 面 来 介绍 国 卫 可 四 所 示 的 各 种 平台 


要 点 、 6 主要 的 机 器 学 习 平台 (国正 二 ) 
@ 主要 的 深度 学 习 平台 ( 基态 ) 
名 编程 语言 








主要 的 机 器 学 习习 











Google Cloud Platform 

Microsoft Azure Machine Learning 

Amazon Machine Learning Chainer 

Bluemix :IBM 沃 森 TensorF low 
MXNet 


Keras 





主要 的 机 器 学 习 平 台 和 深度 学 习 平 台 





HH Google Cloud Platform 

从 Google Prediction API 开始 ，Google 向 全 球 用 户 提供 机 还 学 习 的 基 
础 架构 。Prediction API 是 有 监督 学 习 ， 通 过 录入 有 标记 的 训练 数据 ， 
Prediction API 能 够 对 输入 数据 进行 预测 和 分 类 

该 API 能 够 输入 多 种 连续 或 离散 的 数据 ， 可 用 于 垃圾 邮件 判定 、 文 本 
分 类 、 情 感 分 析 和 销售 预测 等 。 

当前 ，Google 宣布 开放 机 器 学 习 云 平 台 Google Cloud Machine Learning 
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Platform， 其 中 集成 了 Colud Storage 和 数据 分 析 基 础 架构 Cloud Dataflow 
等 云 服务 。 

与 用 于 图 像 识别 的 Google Cloud Vision API、 用 于 语音 识别 的 Google 
Speech API、 用 于 文本 处 理 的 Google Natural Language API， 以 及 用 于 翻译 
的 Google Cloud Translate API 等 水 平 较 低 的 Prediction API 相 比 ，Gloud 
Machine Learning Platform 上 会 提供 一 些 高 水 平 的 API。 





11 Microsoft Azure Machine Learning 

在 Google 推出 Google Prediction API 五 年 后 的 2015 年 ，Google 又 正 
式 推出 了 其 大 规模 数据 处 理 基础 架构 Cloud Dataflow。 而 在 这 一 年 里 ， 
Microsoft 发 布 了 AzureML ( Azure Machine Learning )，Amazon 发 布 了 
AmazonML ( Amazon Machine Learning ), 

AzureML 支持 二 分 类 、 多 分 类 以 及 基于 回归 分 析 的 预测 ， 它 还 可 以 
基于 Web 界面 的 集成 环境 Azure Machine Learning Studio 进行 数据 分 析 。 

Azure 从 很 早 开始 就 致力 于 在 云 平 台 上 进行 物 联网 (Internet of 
Things，IoT ) 设备 的 数据 采集 和 分 析 协 作 ， 并 提供 Web 部 署 功 能 等 服务 。 
因此 ,不 管 是 从 具有 RESTful API 的 设备 获取 数据 ， 还 是 Web 服务 可 视 
化 ， 整 个 过 程 均 可 做 到 无 颖 对 接 ，Azure 甚至 还 能 将 这 些 内 容 传 输 到 外 部 
服务 器 以 便 在 其 他 服务 开发 中 使 用 。 

此 外 ，Azure 从 一 开始 就 提供 了 相当 于 Google Cloud Vision API 的 图 
像 识别 引擎 和 语音 识别 引擎 。 它 现在 可 以 通过 Cognitive Services 提供 多 
种 API。 
























































1 Amazon Machine Learning 
在 Microsoft 推出 AzureML 的 同一 时 期 ，Amazon 推出 了 它 的 机 需 学 习 
平台 AmazonML ( 参照 四 )。 基 于 Amazon 迄今 为 止 提供 的 云 服务 基础 
架构 的 兼容 性 ，AmazonML 可 以 从 S3 或 RedShift 等 中 读 取 数据 并 进行 数据 
分 析 。 它 具备 与 Google Prediction API、AzureML 同样 的 分 类 和 预测 功能 。 
在 Amazon 的 服务 中 ， 用 户 可 以 在 Amazon Elastic MapReduce 
(EMR ) 中 使 用 Hadoop 和 Spark。 
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| “小 贴 十 | Amazon Machine Learning 


关于 Amazon Machine Learning 和 Amazon EMR， 大 家 可 以 参考 以 下 网 站 内 容 。 
“ Amazon Machine Learning 官网 
“ Amazon EMR 官网 











了 BluemixIBM 沃 森 

IBM 的 Bluemix 云 平台 与 Google GCP、AmazonML 以 及 AzureML 等 
云 平台 略 有 不 同 。 例 如 ，Bluemix 重点 使 用 PaaS 来 提供 服务 。 

Bluemix 是 一 个 解决 方案 服务 云 平 台 ， 用 户 可 以 在 它 的 基础 架构 上 组 
合 部 署 机 器 学 习 服 务 、Web 服务 器 服务 和 数据 库 服务 器 服务 等 各 种 服务 来 
构建 系统 。 

通过 使 用 Node-RED 构建 系统 框架 ,我 们 能 够 从 Bluemix 服务 中 选 
择 组 件 来 创建 流 。 

现在 使 用 Bluemix 和 Node-RED 可 以 更 轻松 地 创建 使 用 了 WebSocket 
的 Web 服务 ， 也 很 容易 构建 数据 流 式 处理 ， 从 而 便于 处 理 来 自 物 联网 设 
备 的 数据 。 此 外 ， 我 们 还 可 以 在 Bluemix 上 使 用 IBM 沃 森 (人 参照 gEE ) 
来 实现 自然 语言 处 理 和 问答 系统 ， 以 及 人 脸 检 测 和 识别 系统 。 


| 小 贴 二 | IBM 沃 森 


2011 年 ，IBM 沃 森 在 智力 竞赛 节目 《危险 边缘 》 中 击败 人 类 选手 获得 冠军 。 
2015 年 ，IBM 沃 森 已 经 能 依托 现 有 食谱 数据 库 来 创建 全 新 的 食谱 了 。 我 们 还 可 以 
利用 在 沃 森 上 构建 的 应 用 程序 来 开发 自然 语言 的 分 类 和 对 话 、 检 索 和 排名 、 文 档 
转换 、 语 音 识 别 、 语 音 合成 等 先进 的 功能 。 这 些 功 能 也 称 为 认 知 计 算 。 认 知 计算 
能 够 基于 庞大 的 自然 语言 数据 进行 推理 ， 辅 助人 类 去 做 决策 。 

对 于 认 知 计算 与 人 工 智 能 的 区 别 ， 美 国 1IBM 研究 院 的 奥 . 吉尔 ( Dario Gil) 
表示 ， 人 工 智 能 是 科学 领域 的 技术 ， 虽 在 模仿 人 类 的 思维 和 行动 ， 而 认 知 计算 以 
人 为 中 心 ， 旨 在 辅助 人 类 更 好 地 完成 工作 。 

2016 年 初 ，IBM 联手 日 本 软银 通信 ， 让 沃 森 为 日 语 的 自然 语言 处 理 提供 辅 
助 。 使 用 规范 格式 累积 大 量 日 文 文档 并 将 这 些 文档 用 于 分 析 成 为 可 能 。 

例如 ， 医 疗 从 业 人 员 需 要 一 个 半月 才能 完成 的 医疗 领域 相关 论文 ， 沃 森 只 需 
20 分 钟 即 可 完成 处 理 。 通 过 累积 大 量 的 专业 文档 ，2016 年 8 月 ， 沃 森 根据 患者 
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的 临床 信息 给 出 了 不 同 于 医生 的 诊断 和 治疗 方案 。 在 实际 采用 了 沃 森 提 供 的 治疗 
方案 后 ， 患 者 得 到 了 很 好 的 治疗 效果 。 
疗 信息 日 新 月 异 ， 而 一 个 人 能 够 掌握 的 信息 是 有 限 的。 预计 今后 人 工 智 能 、 
机 器 学 习 系 统 和 认 知 计算 提供 的 诊断 和 治疗 方法 会 越 来 越 准 确 。 
| BM 沃 森 能 够 存储 大 量 信息 并 从 中 提取 最 佳 信息 ， 人 们 期 望 它 能 够 给 医疗 最 
前 线 带 来 颠覆 性 的 变化 。 
本 专栏 在 写作 过 程 中 参考 了 以 下 文章 。 
e 人 工 智能 ( Al ) 改变 医疗 ! 
10 分 钟 确 诊 出 白血病 挽救 患者 一 一 见证 IBM 沃 森 的 实力 ! ” 


























































































































































































































名 主要 的 深度 学 习 平台 








2010 年 以 后 发 展 起 来 的 深度 学 习 平 台 是 与 机 器 学 习 平 台 并 驾 齐 驱 
的 有 力 工 具 。 深 度 学 习 投 入 使 用 后 ， 处 理 的 模块 化 推动 了 相应 平台 软 
件 的 开发 。 得 益 于 这 些 开源 平台 ， 用 户 可 以 更 加 专注 于 构建 想 要 的 神 
经 网 络 。 

最 先 使 用 Caffe 和 Theano 的 是 主要 用 于 图 像 处 理 的 卷 积 神经 网 络 。 
Caffe 和 Theano 也 适用 于 主要 用 来 处 理 时 间 序 列 数据 的 循环 神经 网 络 。 

截至 2016 年 ， 那 些 巨头 公司 开发 的 IaaS 并 未 像 提 供 机 器 学 习 平台 那 
样 提供 深度 学 习 平台 ， 用 户 需 要 自行 部 署 深度 学 习 服 务 器 。 但 预计 未 来 会 
出 现 一 些 服务 能 够 支持 人 们 轻松 实现 深度 学 习 。 


















































HH Caffe 
Caffe 是 由 美国 加 州 大 学 伯克利 分 校 视觉 与 学 习 中 心 (Berkeley Vision 
and Learning Center，BVLC ) 开发 的 一 套 深 度 学 习 平 台 。Caffe 源 自 计算 
机 视觉 领域 的 研究 ， 卷 积 神经 网 络 训 练 中 经 常用 到 Caffe 库 。 另 外 ，Caffe 
库 也 可 以 通过 Python 和 MATLAB 调用 。 
。 参考 . Caffe 官网 


























QD 原文 章 名 为 [人 工 知 能 (AI) 办 医 冶 艳 奖 之 辑 ! 入 于 加 10 分 艺 白 血 病 在 见 技 兰 患 
者 在 救 愉 因 TIBM Watson 外 底 力 |。 译 者 注 
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HTheano 

深度 学 习 平台 Theano 是 一 个 Python 库 。 与 其 他 专注 于 图 像 识别 等 特 
定 处 理 的 库 相 比 ，Theano 作为 数值 计算 工具 的 色彩 更 浓厚 一 些 。 

。 参考 . Theano 官网 














HH Chainer 
Chainer 是 日 本 Preferred Networks 公司 开发 的 开源 深度 学 习 平 台 ， 可 
提供 丰富 的 日 语 信 息 。 其 便捷 的 日 语 支 持 广 受用 户 欢 迎 。Chainer 也 可 以 
通过 Python 使 用 。 
。 参考 . Chainer 官网 














HH TensorFlow 

TensorFlow 是 Google 发 布 的 深度 学 习 库 ， 其 中 包含 数值 计算 机 制 。 
战胜 了 世界 围棋 冠军 的 AlphoGo 系统 就 是 在 TensorFlow 上 运行 的 。 

Google 开源 了 TensorFlow， 它 的 用 户 遍 布 世 界 各 地 。 关 于 TensorFlow 
实战 经 验 和 教程 的 图 书 也 不 断 出 版 。Google 还 在 Udacity 等 e-learning 平 
台 上 开设 了 基于 TensorFlow 的 深度 学 习 课 程 ， 降 低 了 学 习 难 度 。 男 外 ， 
TensorFlow 也 可 以 通过 Python 使 用 。 

。 人 参考: TensorFlow 官网 























HH MXNet 

MXNet 是 一 个 深度 学 习 库 ， 从 2016 年 开始 受到 越 来 越 多 的 关注 。 它 
兼容 Python、C++、R、Julia 甚至 JavaScript 等 多 种 编程 语言 。 此 外 ， 
MXNet 已 经 有 文档 齐全 的 教程 ， 方 便 我 们 上 手 尝试 。 

。 参考 . MXNet 官网 











HH Keras 

随 着 各 种 类 型 的 深度 学 习 平 台 不 断 间 世 ， 为 了 确认 再 现 性 或 测定 处 理 
所 需 时 间 等 信息 ， 有 时 我 们 和 希望 在 多 个 深度 学 习 平台 上 执行 同一 个 处 理 ， 
而 Keras 库 能 帮助 我 们 实现 这 个 愿望 。 
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Keras 能 够 吸收 多 个 平台 的 差异 。 截 至 2016 年 10 月 ，Keras 支持 的 
有 TensorFlow 和 Theano。 男 有 Keras.js 支持 JavaScript。 











今后 应 该 也 会 被 持续 使 用 的 Chainer 和 TensorFlow 等 深度 学 习 平台 pe 
主要 使 用 Python 进行 开发 ， 所 以 自 2015 年 以 来 日 本 国内 的 Python 需求 
持续 上 升 。 
Web 编程 从 十 多 年 前 开始 繁荣 至 今 ，Java、PHP ( 超 文本 预 处 理 絮 ) 
和 Ruby on Rails 中 使 用 的 Ruby 在 日 本 国内 广 受 欢迎 。 但 是 ， 和 常用 于 科学 
技术 计算 的 Python， 其 人 气 在 eal nd 
然而 ， 基 于 深度 学 习 和 机 絮 学 习 的 人 工 智 能 开发 热度 不 减 。 现 在 ， 
































Python 试图 成 为 Web 编程 语言 中 的 PHP， 可 以 说 Python 是 未 来 必须 掌握 
的 语言 之 一 人 )。 


编程 语言 排行 榜 ( 2016 ) 


EEC EEC 














JavaScript 
2 Java 9 C 5 Haskell 
3 BEE 10 Objective-C Im Swift 
4 Python 上 Shell 18 Matlab 
5 C# 12 Beall 19 Clojure 
3 (Et 13 及 lS) Groovy 
S Ruby 14 Scala 19 Visual Basic 


摘自 《2016 年 1 月 RedMonk 编程 语言 排行 榜 》- 











QD 原文 章 名 为 “The RedMonk Programming Language Rankings: January 2016”。 译 者 注 


工 智能 与 海量 数 
4 区 据 和 物 联网 





使 用 价格 低廉 的 小 型 计算 机 和 传感器 芯片 可 以 轻松 组 装 出 
特定 用 途 的 物 联网 设备 。 随 着 物 联网 设备 的 逐渐 增多 ， 检 
测 结果 和 测量 数据 的 存储 管理 成 为 新 的 课题 。 有 些 敏感 的 
存储 内 容 还 需要 慎重 对 待 。 本 章 ， 笔 者 将 简单 地 介绍 这 些 
内 容 ， 同 时 对 物 联网 设备 与 人 工 智能 的 协同 工作 、 人 工 智 
能 与 脑 科 学 研究 的 相关 性 ， 以 及 政府 对 人 工 智能 的 方针 等 
相关 内 容 进行 介绍 。 
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数据 膨胀 





下 面 来 介绍 逐年 猛 增 的 数据 和 相应 的 数据 存储 。 


要 点 、 6 存储 分 配 
@ 对 象 存储 
名 关注 个 人 信息 





车 存储 分 配 

在 使 用 深度 学 习 等 方法 解决 课题 时 需要 用 到 大 量 数据 ， 这 一 点 对 于 人 
工 智能 和 机 顺 学 习 今 后 的 发 展 非常 重要 。 

企业 在 收集 数据 时 ， 必 须 先 思考 “如 何 利 用 数据 " ， 然 后 讨论 “ 需 
收集 哪些 数据 ”。 

当然 ， 如 果 仅 以 收集 数据 为 目的 ， 那 么 不 考虑 数据 的 种 类 ， 随 意 收集 
数据 也 没什么 大 问题 。 因 为 在 进行 数据 分 析 时 ， 这 种 做 法 虽然 会 导致 多 重 
共 线 性 问题 发 生 ， 但 是 增加 解释 变量 ( 自 变量 ) 后 ， 能 够 反映 特征 的 信息 
也 会 相应 地 增加 。 实 际 上 ， 在 一 些 数 据 分 析 大 赛 或 基于 深度 学 习 的 图 像 识 
别 训 练 中 ， 人 们 会 特意 通过 创建 新 的 解释 变量 或 增加 噪声 来 获得 新 的 数 
据 ， 并 将 其 作为 标记 数据 使 用 。 

但 是 ， 在 需要 收集 和 累积 海量 数据 的 情况 下 ， 数 据 存储 就 变 得 尤为 重 
要 了 。 例 如 ， 图 像 识 别 数据 库 ImageNet 是 将 图 像 和 关键 字 关 联 起 来 保存 
的 库 。 和 截至 2016 年 10 月 ，ImageNet 内 包含 了 超过 1419 万 张 的 图 像 和 超 
过 2 万 个 的 图 像 标签 。 如 需 下 载 使 用 ， 数 据 量 将 会 非常 庞大 。 

关于 数据 存储 方式 ， 企 业 可 以 自行 配置 存储 服务 器 ， 也 可 以 使 用 VPS 
( Virtual Private Server， 虚 拟 专用 服务 器 ) 或 Iaas 等 云 平台 提供 的 存储 服 
务 。 在 自行 配置 存储 服务 器 时 ， 需 要 考虑 数据 备份 以 及 数据 元 余 的 设计 和 
设置 等 ， 所 以 在 实际 应 用 中 最 好 使 用 云 存 储 平台 ( js 
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各 种 云 存 储 平台 和 超级 计算 机 等 的 存储 价格 ( 2016 年 10 月 ) 



























































































































































































































































平 人 台 价 格 

Amazon S3 0.0330USD/1 GB/ 月 

GCP Cloud Storage 0.026USD/1 GB/ 

Microsoft Azure P10 ) 2312.34 日 元 /128 GB/ 月 
标准 ) 5.10 日 元 /1 GB/ 

IBM Bluemix 2 IOP ) 3072 日 元 /100 GB/ 

Sakura Internet 樱花 云 标准 ) 2160 日 元 /100 GB/ 月 
SSD ) 3780 日 元 /100 GB/ 

GMOCloud ALTUS 15 日 元 /1 GB/ 月 

GMO Internet ConoHa SSD ) 2500 日 元 /200 GB/ 
对 象 存储 ) 450 日 元 /100 GB/ 

HJ GIO 存储 和 分 析 服 务 对 象 存储 ) 7 日 元 /1 GB/ 

东京 大 学 FX10 超级 计算 机 系统 5400 日 元 /500 GB/ 年 

东京 大 学 Reedbush-U 系统 6480 日 元 /1 TB/ 年 

东京 大 学 医科 学 研究 所 超级 计算 机 120000 日 元 /1 TB/ 年 

京 300 日 元 /10 GB/ 























汤 对 象 存 储 


近年 来 ，VPS 和 云 存储 平台 也 开始 使 用 对 象 存 储 服务 。Amazon 推出 
对 象 存储 服务 S3 后 ， 这 种 存储 服务 就 变 得 越 来 越 普 及 ， 它 颠覆 了 以 往 基 
于 块 设备 文件 系统 的 数据 存储 方式 。 在 对 象 存储 中 ， 文 件 称 为 对 象 ， 文 件 
的 写 入 和 读 取 需要 使 用 HTTP REST (参照 加 WE 中) API。 


| “小 贴 十 | REST 


在 使 用 REST ( REpresentational State Transfer， 表 达 性 状态 转移 ) 读 取 和 写 
2 En ESPOMIIEADIPUIIDELEVESEA 
取 和 更 新 数据 。REST 响应 输出 XML 格式 和 JSON 格式 的 数据 ， 多 在 Web 服务 
API 中 使 用 。REST 的 结构 与 SOAP ( Simple Object Access Protocol， 简 单 对 象 
访问 协议 ) 和 WebDAV ( Web-based Distributed Authoring and Versioning， 基 
于 Web 的 分 布 式 创作 和 版 本 控制 ) 类 似 。 如 果 一 个 系统 架构 符合 REST 原则 ， 这 
个 系统 架构 就 称 为 RESTful 架构 。 
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对 象 存储 为 每 一 个 对 象 分 配 了 URI ( Uniform Resource Identifier， 统 
一 资源 标识 符 ) ( 参照 由 )。 目 前 Amazon S3 云 存储 协议 已 成 为 对 象 存 
储 的 事实 标准 ， 与 Amason S3 API 兼容 的 服务 可 以 通过 网 络 挂 载 文件 〈 对 
象 ) 组 ， 或 通过 访问 Web 服务 等 后 端 数据 库 来 读 写 数据 。 

与 传统 的 文件 存储 相 比 ， 对 象 存储 的 单位 容量 成 本 较 低 ， 不 过 对 象 存 
储 多 以 流量 计 费 (多 到 | )- 

















POSIX API 对 象 存储 HTTP REST API 


使 用 加 密 密 
钥 进行 加 密 











通过 URI 














ETTie 
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I Bs 


























硬盘 进 和 
布 式 存储 





对 象 存储 


PE un 


URI 也 称 为 URL( Uniform Resource 
Locator， 统 一 资源 定位 符 )。 


蕊 文件 存储 

在 文件 存储 中 ,通常 利用 RAID (Redundant Arrays of Inexpensive 
Disks， 独 立 宛 余 磁盘 阵列 ) 组 合 多 个 物理 磁盘 块 设备 来 实现 数据 元 余 ， 
或 利用 DRBD ( Distributed Replicated Block Device ， 分 布 式 块 设 备 复制 )、 
同步 系统 和 各 种 备份 程序 ， 在 不 同 的 物理 设备 上 实现 数据 宛 余 。 








口 对 象 存储 
在 对 象 存储 中 ， 将 对 象 写 人 多 个 对 象 存储 中 ( 同一 网 络 中 的 其 他 机 器 
节点 或 远程 网 络 ) 可 以 得 到 数据 元 余 。 
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和 元 余 相 比 ， 纠 删 码 (Erasure Coding，EC ) 是 一 种 更 有 效 的 数据 保 
护 技术 。 它 将 对 象 数据 分 割 成 片段 进行 编码 ， 并 将 其 存储 在 不 同 的 磁盘 位 
置 ， 所 以 纠 删 码 能 在 丢失 部 分 数据 的 情况 下 ， 根 据 剩 余数 据 重 建 对象 。 

















蕊 文件 存储 和 对 象 存储 
在 文件 存储 中 ,我 们 可 以 通过 单独 加 密 文 件 或 加 密 文件 系统 的 方式 来 
确保 数据 的 安全 性 。 而 在 对 象 存储 中 ,我们 可 以 在 上 传 数据 的 同时 指定 加 
密 密 钥 ， 以 此 来 存储 加 密 数 据 。 
由 于 在 下 载 数据 时 只 能 下 载 用 指定 加 密 密 钥 解密 后 的 数据 ， 所 以 我 们 
不 用 太 过 担心 没有 持 有 加 密 密 钥 的 外 部 人 员 会 非法 盗用 数据 。 












































晤 关注 个 人 信息 





不 难 想象 ， 随 着 收集 的 数据 越 来 越 多 ， 通 过 机 融 学 习 得 到 的 分 类 需 的 
准确 度 也 会 越 来 越 高 。 

通常 人 们 认为 ， 使 用 个 人 信息 进行 数据 分 析 便 能 面向 个 人 提供 更 好 的 
服务 。 但 是 ,我 们 在 使 用 能 够 特定 到 个 人 的 信息 进行 开发 时 要 格外 谨慎 。 
除了 与 目标 用 户 进行 交流 ， 不 要 忘记 此 类 服务 是 受到 监控 的 。 















































吕 个 人 信息 保护 法 

2015 年 ， 日 本 修订 了 《个 人 信息 保护 法 》 并 于 2017 年 春季 开始 全 
面 实施 。 修 订 以 前 ， 个 人 数据 量 只 有 达到 一 定 规模 才 会 受到 法 律 保 护 ， 而 
修订 后 将 不 再 有 这 方面 的 限于 

有 一 点 与 修订 前 一 样 ， 那 就 是 需要 基于 使 用 目的 获得 使 用 许可 ， 只 能 
在 授权 范围 内 使 用 数据 (不 含 身 份 证 信息 )。 

信仰 和 病史 等 隐私 信息 在 获取 和 使 用 方面 有 一 定 的 限制 。 如 果 是 事先 
已 定义 的 敏感 信息 ， 在 收集 或 向 外 提供 时 ， 必 须 得 到 个 人 的 明确 同意 。 

个 人 信息 包括 姓名 、 电 话 号 码 、 四 驶 证 号 等 。 另 外 ， 一 些 与 行踪 轨迹 
等 结合 使 用 后 就 能 特定 到 个 人 的 信息 也 属于 个 人 信息 。 其 中 新 增 了 身份 识 
别 标识 ， 比 如 更 详细 的 驾驶 证 档案 编号 或 身份 证 号 ， 还 有 揭示 行走 习惯 的 
数据 、 指 纹 、 虹 膜 、 基 因 组 上 的 碱 基 变 异 等 代表 身体 特征 的 信息 。 
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口 匿名 处 理 信息 

现在 ， 有 的 公司 会 采用 匿名 化 技术 对 个 人 信息 进行 处 理 ， 以 免 定位 到 
个 人 。 这 些 匿名 处 理 信息 可 供 其 他 公司 在 相关 产业 中 使 用 [EggE9 )。 比 
如 ， 我 们 收集 大 量 其 他 公司 旗下 电车 的 乘坐 历史 信息 ， 然 后 结合 自己 公司 
的 商品 销售 数据 ， 就 能 制定 出 对 商品 流通 更 好 的 计划 。 这 些 优势 与 大 数据 
的 使 用 方法 息息相关 。 
























个 大 信息 匿名 处 理 信息 


采用 匿名 化 技术 对 个 人 信息 
进行 处 理 使 其 不 能 复原 ， 即 
企业 提供 这 些 匿 


( 所谓 的 大 数 


























































※ 敏感 信息 就 是 JIS Q15001:2006 中 特定 

的 隐私 信息 
※ 相关 法 律 对 身份 识别 标识 中 的 身份 证 号 
的 使 用 有 严格 的 限制 





























个 人 信息 保护 法 


本 次 修订 的 另 一 个 重大 变化 是 新 增 了 “非法 提供 公民 个 人 信息 罪 ” 
(为 谋求 非法 利益 ， 对 外 提供 个 人 信息 数据 库 )。 以 往 的 法 律 中 没有 任何 针 
对 个 人 犯罪 的 惩罚 规定 。 如 果 违 反 了 主管 大 臣 ” 的 劝告 或 命令 ,企业 将 受 
到 惩罚 ， 如 果 个 体 在 个 人 信息 泄露 过 程 中 的 参与 程度 较 高 ， 将 会 以 盗 穷 罪 
或 违反 《 反 不 正当 竞争 法 》 的 罪名 进行 惩罚 。 

能 够 直接 接触 公民 个 人 信息 的 工作 人 员 如 果 为 了 谋求 非法 利益 ， 穷 取 
和 非法 提供 个 人 信息 数据 库 〈 全 部 或 部 分 复制 ,包含 匿名 数据 )， 根 据 修 
订 后 的 《个 人 信息 保护 法 》 第 83 条 ， 将 被 处 以 1 年 以 下 有 期 徒刑 或 50 万 
日 元 以 下 的 罚款 。 



































@ 日 本 掌管 某 行 政事 物 的 大 臣 ， 如 教育 方面 的 主管 大 臣 是 文部 科学 大 臣 ， 经 济 方面 的 
是 经 济 产业 大 臣 。 一 一 译 者 注 
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物 联 网 和 分 布 式 人 工 智 能 





下 面 来 介绍 物 联网 和 分 布 式 人 工 智能 。 











要 点 、 6 物 联网 带 来 的 测量 数据 规模 膨胀 
名 物 联 网 和 机 器 人 














过 物 联网 带 来 的 测量 数据 规模 膨胀 


IoT 是 Internet of Things 的 缩写 ， 称 为 物 联网 。 在 物 联 网 风潮 来 克之 
前 ， 通 过 计算 机 进行 互联 网 连接 的 核心 主体 是 人 类 ， 即 使 手机 普及 之 后 也 
是 如 此 ， 直 到 Google 发 布 了 Android 操作 系统 和 Android 终端 ， 情 况 才 开 
始 发 生变 化 。 

Android 在 移动 通信 环境 掀起 了 划时代 的 革命 ， 再 加 上 后 来 云 计 算 的 
影响 ， 用 于 实现 多 个 Android 终端 同步 和 通信 的 基础 架构 由 C2DM 
( Cloud to Device Messaging， 云 端 至 设备 信息 传递 ) 转变 为 GCM ( Google 
Cloud Messaging， 谷 歌 云 消 息 ) 和 FCM (Firebase Cloud Messaging， 
Firebase 云 消 息 传递 )。 

在 当前 的 时 代 潮 流下 ，M2M (Machine to Machine， 机 器 对 机 器 ) 这 
种 通信 方式 应 运 而 生 。M2M 通信 是 指 在 没有 人 为 干预 的 情况 下 ， 实 现 机 
器 与 机 右 之 间 的 信息 交互 。 而 M2M 的 实现 终端 就 是 物 联 网 或 者 叫 作 物 联 
网 设备 的 机 器 (参照 好 于 ), 





























联网 设 各 


物 联网 设备 也 包含 手持 移动 电话 。 
































2015 年 版 的 《信息 通信 白皮书 》 中 指出 ， 截 至 2013 年 ， 物 联网 设备 
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约 有 158 亿 个 ， 到 2020 年 估计 会 增加 到 530 亿 个 。 

汽车 和 医疗 领域 的 物 联网 设备 在 2014 年 时 数量 还 很 少 ， 但 最 近 与 医 
疗 保健 相关 的 物 联 网 设备 数量 呈 上 升 趋势 ， 所 以 我 们 有 理由 认为 在 这 些 领 
域 将 有 更 多 的 系统 开始 使 用 物 联 网 。 不 仅 如 此 , 在 2014 年 内 大 量 使 用 物 
联网 设备 的 行业 和 面向 消费 者 的 设备 预计 在 今后 也 会 持续 稳步 增长 
(B® )- 
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(要 0Z0Zcvl0z) 











80 
物 联 网 设备 数量 ( 2014 年 ) ( 公 个 ) 
亲信 息 娱乐 是 指 融 合 了 信息 和 娱乐 的 系统 。 





物 联网 设备 数量 预测 
摘自 日 本 总 务 省 官方 网 站 





物 联 网 最 早 用 在 能 入 式 系统 的 组 件 中 ， 所 以 它 作为 电子 元 器 件 的 色彩 
比较 浓重 。 在 搭载 了 ARM 公司 生产 的 CPU 微 控制 器 板 的 基础 上 连接 各 种 
传感器 模块 ， 物 联网 设备 就 会 开始 运转 。 

Raspberry Pi 和 Arduino 是 两 款 比 较 有 名 的 微 控 制 器 ， 我 们 可 以 从 电 
子 元 器 件 贸 易 公 司 那里 获取 这 些 设备 。 

不 过 ， 基 于 微 控制 器 生产 的 设备 主要 面向 个 人 或 原型 产品 ， 如 果 产 品 
的 运行 周期 长 或 需要 满足 特定 使 用 环境 的 要 求 ， 可 能 需要 重新 使 用 其 他 工 
具 进 行 设计 ( 回 ig )。 
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Raspberry Pi Arduino Intel Edison ESP-WROOM-02 


(Arduino) 


2 


GR-PEACH HiKey Board 
(96boards) 


物 联 网 设备 中 用 到 的 设备 








物 联网 设备 会 通过 安装 的 传感器 获取 数据 ， 并 将 数据 直接 传送 给 其 他 
机 器 ， 或 者 处理 后 传送 给 其 他 机 器 。 提 高 传感器 的 分 辩 率 也 会 产生 大 量 的 
数据 ， 在 采用 无 线 数据 传输 方式 时 ， 必 须 注意 传输 是 否 存 在 遗漏 。 

与 个 人 计算 机 和 服务 器 相 比 ， 物 联网 设备 中 使 用 的 CPU 功 耗 较 低 ， 
安装 的 超 高 速 内 存 较 少 ， 所 以 在 考虑 使 用 物 联 网 设备 进行 数据 处 理 时 ， 最 
好 能 够 将 物 联网 设备 直接 处 理 的 数据 和 其 他 接收 端 处 理 的 数据 区 分 开 。 例 
如 ， 在 微 控制 器 mbed 上 藤 入 语音 识别 系统 时 ， 即 使 在 云端 设置 了 语音 识 





























别处 理 单元 ， 也 要 注意 波形 提取 的 时 机 和 波形 质 
不 符 而 不 能 处 理 的 情况 。 


岂 





， 否 则 可 能 出 现 因 规格 





泥 物 联网 和 机 器 人 


通过 物 联 网 设备 获得 的 传感器 数据 将 通过 网 络 传输 到 其 











也 机 天 上 接受 





处 理 。 数 据 也 可 能 在 异地 的 云 环 境 中 处 理 ， 总 之 最 后 处 理 结果 会 传输 给 作 








为 动作 主体 的 人 类 或 机 需 。 





在 信息 传输 对 象 是 人 类 的 情况 下 ， 由 于 信息 无 法 操纵 人 类 ， 所 以 只 会 














显示 出 来 。 但 是 在 传输 对 象 是 机 器 ， 也 就 是 机 器 人 的 情况 下 ， 


























re 








信息 能 














接 操 纵 其 行动 ， 机 器 人 会 做 出 对 周围 环境 产生 影响 的 行为 ， 比 如 移动 或 发 


出 声音 等 。 这 种 能 够 与 环境 交互 的 机 器 人 称 为 制动器 ( actuator ) ( 国 凤 于 ) 
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物 联网 和 机 器 人 的 相关 性 示意 

















以 往 的 开发 重点 是 将 传 感 右 直接 租 入 机 器 人 体内 ， 通 过 这 种 方式 开发 


的 机 器 人 无 须 网 络 也 能 具备 图 像 识 中 





上 和 语音 识别 等 功能 。 


然而 ， 随 着 以 深度 学 习 为 首 的 高 性 能 分 类 器 的 出 现 ， 在 一 些 对 识别 精 
度 要 求 较 高 的 系统 中 ， 人 们 对 基于 互联 网 等 无 线 通信 方式 的 系统 也 增加 了 


资金 投入 。 








特别 是 在 包含 图 像 识 别 的 系统 








P， 使 用 Google Cloud Vision 等 构建 的 


物体 识别 系统 既 便 宜 又 便捷 ( ), 






























































像 
OpenCyV 等 进行 处 理 












































丰 一 一 一 照相 机 拍摄 的 医 


| | 
使 用 Google Cloud Vision 
进行 物体 识别 
< 
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使 用 了 照相 机 的 简单 机 器 人 示例 


与 此 同时 ， 人 们 在 机 絮 人 之 外 站 





的 位 置 也 安装 了 多 种 传感器 ， 机 器 人 会 


将 各 种 传感器 收集 的 数据 进行 有 效 融 合 ， 然 后 决定 下 一 步行 动 。 今 后 这 类 


机 融 人 可 能 会 得 到 越 来 越 广泛 的 应 月 





。 














第 14 章 ”人工 智 能 与 海量 数据 和 物 联 网 | 321 




















经 过 利用 无 线 通信 技术 的 高 度 分 散 式 信息 处 理 的 时 代 之 后 ， 人 工 智能 
将 发 展 为 分 布 式 人 工 智 能 。 也 就 是 说 ， 物 联网 设备 和 机 器 人 可 以 分 别处 理 




















各 自 的 数据 ， 物 联网 设备 作为 传感器 在 机 器 人 中 得 到 充分 利用 ， 机 器 人 之 
间 能 相互 协调 合作 解决 课题 ( )s 






















































































多 台 物 联网 设备 与 机 器 人 的 合作 
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03， 脑 功能 分 析 和 机 器 人 


下 面 来 介绍 脑 功能 分 析 和 机 器 人 。 


要 点 、 6 探索 脑 功能 
名 小 脑 模型 


汤 探索 脑 功能 

与 机 器 人 研究 同时 进行 的 研究 包括 脑 功能 方面 的 分 析 。 研 究 人 员 推 进 
了 新 技术 的 开发 和 应 用 ， 这 些 新 技术 能 够 解析 脑 细胞 和 复杂 神经 回路 是 如 
何 快速 相互 作用 的 。 这 对 于 我 们 了 解 脑 功能 与 行为 之 间 的 复杂 联系 有 很 重 
要 的 作用 。 

2013 年 ， 时 任 美国 总 统 的 奥巴马 率先 宣布 启动 “ 脑 计 划 ”( Brain Research 
through Advancing Innovative Neurotechnologies Initiative， 推 进 创 新 神经 技 
术 脑 研究 计划 ) 该 计划 由 NIH (美国 国立 卫生 研究 院 ) 带头 实施 。 

2014 年 ， 日 本 理化 学 研究 所 的 脑 科 学 综合 研究 中 心 也 局 动 了 日 本 大 
脑 研究 计划 Brain/MINDS ( Brain Mapping by Integrated Neurotechnologies 
for Disease Studies， 使 用 整合 性 神经 技术 绘制 有 助 于 脑 疾病 人 研究 的 大 脑 
图 谱 )。 

测量 并 调查 分 析 生 物体 内 部 各 要 素 的 相互 作用 和 功能 后 ， 将 其 应 用 到 
人 造物 中 的 做 法 由 来 已 入。 人 类 大 脑 只 要 消耗 一 枚 灯泡 的 能 量 (30W )， 
就 能 拥有 匹敌 超级 计算 机 的 运算 速度 ， 所 以 分 析 脑 功能 可 以 为 开发 节能 的 
运算 处 理 装置 提供 重要 的 线索 ( 国 凤 于 | )。 
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生活 支持 








= 测量 身体 和 细胞 














《= fs 机 及 功能 和 机 出 
大 脑 机 制 


9 机 器 人 系统 





生物 





机 器 人 和 脑 神经 研究 





最 近 ， 日 本 电气 通信 大 学 的 山崎 助理 教授 团队 发 表 了 基于 小 脑 模型 的 
计算 机 仿真 的 研究 成 果 。 

说 到 脑 研究 ， 也 许 很 多 人 会 从 意识 、 记 忆 和 思考 等 方面 联想 到 大 脑 的 
研究 。 然 而 ， 人 类 对 小 脑 的 研究 比 对 大 脑 的 研究 更 深入 。 小 脑 损 伤 会 导致 
运动 失调 ， 也 会 使 人 丧失 运动 技能 学 习 的 能 力 ， 由 此 可 见 ， 小 脑 承担 着 运 
动 协 调和 运动 技能 学 习 等 运动 功能 。 在 开始 新 的 运动 或 做 出 细微 的 动作 
时 ， 小 脑 会 对 大 脑 发 出 的 指令 进行 校正 ， 而 在 做 简单 任务 时 ， 比 如 反复 运 
动 等 ， 小 脑 会 自主 控制 身体 。 

关于 上 述 小 脑 的 机 制 ,， 最 有 力 的 假设 是 小 脑 模 型 是 一 个 关于 身体 的 内 部 
模型 ， 该 模型 根据 脑 和 外 界 输入 ， 通 过 反馈 机 制 来 进行 更 新 ( 医 色 于) )。 

















运动 计划 








小 脑 的 内 部 模型 假设 








摘自 《人 工 智 能 六 (vol.30 No.5 2015/9 ) 第 639 页 














@@ 原 杂 志 名 为 『 人 工 知 能 上 一 一 译 者 注 
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壤 小 脑 模型 


人 类 小 脑 总 体积 约 占 全 脑 的 10%， 而 其 所 含 的 神经 元 数量 却 占 全 脑 神 
经 元 总 数 的 80%。 小 脑 中 的 神经 元 包括 背景 信号 和 标记 信号 这 两 个 传 入 系 
统 以 及 一 个 传 出 系统 ， 它 们 没有 形成 复杂 的 神经 回路 。 

背景 信号 是 一 种 运动 信号 ， 该 信号 通过 脑 桥 核 神经 元 营 状 纤维 传送 到 
颗粒 细胞 和 小 脑 核 。 而 标记 信号 是 通过 下 橄榄 核 候 行 纤维 投射 到 浦 肯 野 细 
胞 的 ， 对 浦 肯 野 细胞 有 较 强 的 兴奋 作用 。 之 后 ， 小 脑 核 会 将 信号 传 出 。 在 
计算 机 上 模拟 这 种 结构 的 网 络 可 以 重 现 动 物 的 眼球 运动 ( 和 
)。 






































GPU 版 人 造 小 脑 的 应 用 示例 ( 1/2 ) 





运动 记忆 的 固化 过 程 模拟 


























民 睛 向 同一 方向 转动 ( 
性 眼球 运动 ，OKR ) 





加 
8 


Modulation amplitude 


23 4 5 6 


Traning period(day) Traning period(day) 
Yamazaki et al.PNAS(2015) Gosul&Yamazaki, Front Neuroanat(2016) 





使 用 超级 计算 机 重 现 猫 的 小 脑 d) 


摘自 《使 用 Shoubu 实现 一 只 小 猫 的 人 造 小 脑 》 




















中 原 资料 名 为 | Shoubu 艺 突 现 二 召 永 过 一 匹 分 四 人 工 小 脑 |。 译 者 注 
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小 脑 的 计算 = 有 上 监督 学 习 


脑 桥 核 颗粒 细胞 浦 表 野 细胞 
















长 时 程 抑 制 (LTD) 


Ito. Ann Rev Neurosci (1989) 
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改行 纤维 
( 标记 信号 ) 























小 脑 感 知 器 模型 ( Marr-Albus-lto 模型 ) () 下 橄榄 核 





使 用 超级 计算 机 重 现 猫 的 小 脑 2) 
摘自 《使 用 Shoubu 实现 一 只 小 猫 的 人 造 小 脑 》 





除了 使 用 GPU 进行 模拟 ， 在 使 用 PEZY-SC 系列 众 核 处 理 器 的 超级 计 
算 机 Shoubu ( 曹 猜 ) 进行 模拟 时 ， 模 拟 的 神经 元 数量 达到 了 10 亿 个 ,这 
个 数字 相当 于 一 只 猫 的 神经 元 数量 。 

超级 计算 机 在 1 秒 内 可 以 成 功 模拟 1 秒 钟 的 小 脑 神经 活动 ， 实 时 检测 
到 神经 元 的 活动 。 或 许 在 未 来 的 某 一 天 ， 当 小 脑 损伤 导致 运动 功能 出 现 障 
碍 时 ， 我 们 可 以 使 用 人 造 神经 回路 装置 来 蔡 代 小 脑 的 功能 ( 医 玫 到 )。 











QD 原 资料 名 为 [Shoubu 亏 突 现 二 为 永 过 一 匹 分 四 人 工 小 肛 |。 一 一 译 者 注 
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1008 PEZY-SC 芯片 ( 252/320 节点 ) 
上 旬 时 的 单 精度 峰值 性 能 2.6 PFlops 
， 运行 效率 


实现 了 由 10 亿 ( =10s ) 神经 元 组 成 的 小 脑 
， 相当 于 一 只 猫 的 神经 元 数量 












































”换算 成 面积 为 62 x 64 mm? 











实时 模拟 


"在 1 秒 内 模拟 1 秒 钟 的 小 脑 神经 活动 
。A1=1 毫秒 

















最 大 、 最 快 、 最 精细 





ZettaScaler-1.6 的 超级 计算 机 Shoubu 在 5 个 冷却 水 槽 中 进行 液 泡 式 冷却 





图 片 摘自 《超级 计算 机 Shoubu ( 莒 犹 ) 连续 三 届 获 得 “Green500” 高 性 能 节能 
超级 计算 机 排行 榜 第 一 名 “Satsuki”( 皋 月 ) 获得 第 二 名 理化 学 研究 所 的 超 
级 计算 机 获得 排行 榜 前 两 名 》" 























中 ”原文 名 为 | 又 一 公 一 32y> 已 工 一 夕 [TShoubu ( 营 蒲 )] 太 又 八 二 省 工 永 了 于 
盖 乡 Green500 忒 3 期 速 统 ) 世 界 1 位 在 获得 一 『Satsuki ( 捍 月 )] 2 位 顾 获 得 
理 研 设置 四 又 人 NX 沁 太 1,2 位 丰 占 迪 忆 一 上 译 者 注 
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创新 系统 











下 面 来 介绍 创新 系统 。 
要 点 、6@ 通过 自主 学 习 来 理解 概念 : 元 认 知 






































包 日 本 国内 的 人 工 智 能 活动 














申通 过 自主 学 习 来 理解 概念 ; 元 认 知 





小 脑 负责 运动 相关 的 功能 ， 而 大 脑 负责 许多 更 高 阶 的 复杂 的 功能 ， 所 


以 分 析 大 脑 的 全 貌 需 要 更 长 的 时 间 。 

在 迄今 为 止 进行 的 人 工 智能 研究 中 ， 人 类 一 直 在 努力 让 机 咒 理 解 词语 
的 含义 。 通 过 开发 本 体 和 语义 网 等 语义 网 络 的 表达 和 表达 方法 所 获得 的 数 
据 主要 用 来 解决 符号 接地 问题 。 

但 是 ， 在 解释 “ 石 立 ”的 含义 时 ， 不 可 避免 地 需要 用 到 “石头 ”( 参 
腿 EEEE )， 让 机 器 理解 这 种 循环 定义 是 非常 困难 的 ， 所 以 机 器 通过 自卫 
学 习 掌握 词语 的 含义 就 变 得 尤为 重要 。 




















站 





本 在 解释 “石头 ”的 含义 时 , 不 可 避免 地 需要 用 到 “石头 ” 
















































































按照 体积 的 相对 大 小 ， 石 头 还 可 以 称 为 岩石 或 砂粒 ， 但 是 没有 对 石头 本 身 进 
行 解释 的 表达 方式 。 如 果 用 “由 矿物 质 组 成 的 东西 ”来 解释 石头 ， 那 么 这 个 概念 
同样 适用 于 地 球 。 
也 元 认 知 





通过 自主 学 习 来 理解 概念 是 人 类 自然 而 然 的 行为 。 对 自己 的 思考 过 程 
以 及 行为 进行 客观 把 握 和 认识 就 是 元 认 知 。 
目前 尚 不 清楚 2010 年 之 后 机 噩 能 够 获得 多 少 元 认 知 能 力 ， 不 过 在 工 
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业 机 器 人 等 领域 ，PFN 等 公司 开发 了 一 种 基于 深度 学 习 的 机 器 学 习 程 序 ， 
可 以 让 机 器 人 自己 党 习 如 何 有 效 地 抓 取 装 配 零 部 件 。 在 没有 任何 先 验 知识 
的 情况 下 ， 学 习 8 小 时 后 机 器 人 的 抓 取 效率 就 能 达到 人 类 的 水 平 。 

随 着 通信 系统 的 机 器 不 断 具备 元 认 知 能 力 ， 机 器 开始 能 够 根据 周围 情 
境 和 上 下 文 语 境 判 断 并 学 习 词 语 的 含义 。 它 逐渐 成 为 一 种 符号 创新 系统 ， 
具备 与 人 类 一 样 的 沟通 能 力 。 

或 许 在 遥远 的 未 来 ， 人 类 能 够 解析 并 在 计算 机 上 模拟 更 多 的 大 脑 
功能 。 那 时 ， 机 器 萌生 出 智能 和 意识 也 并 非 不 可 能 (参照 罗汉 和 目 和 和 
)- 




















a < 一 一 智能 和 意识 


< 一 一 数量 庞大 的 功能 





由 大 量 功 能 支撑 的 智能 和 意识 


| “小 贴 十 | 人 工 智能 的 智能 和 意识 
即使 人 工 智 能 萌生 了 智能 和 意识 ， 
也 不 知 能 否 说 它们 “等 同 于 人 类 "。 














潮 日 本 国内 的 人 工 智能 活动 

日 本 效仿 世界 上 人 工 智能 技术 较 先 进 的 国家 ， 不 断 对 相关 体制 进行 完 
善 ， 致 力 于 推进 人 工 智 能 的 研究 开发 。NEDO ( 新 能 源 ' 产业 技术 综合 开 
发 机 构 ) 的 AI 门户 网 站 发 表 了 总 务 省 下 属 情 报 通 信 研 究 机 构 、 文 部 科学 
省 理化 学 研究 所 旗下 的 革新 智能 统合 研究 中 心 、 经 济 产 业 省 旗下 的 产业 技 
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术 综 合 研 究 所 人 工 智 能 研究 中 心 等 机 构 在 未 来 的 人 工 智 能 研究 计划 
(BE ). 
建立 跨 政 府 、 民 间 和 省 厅 部 门 的 协作 体制 


























































































































































































































































































































































































































在 首相 官邸 举行 了 人 的 “创收 能 力 ” 创 新 研究 会 、j 
讨论 会 会 议 "， ee 智能 化 加 结构 审议 会 信息 经 济 小 组 委员 会 、 
速 与 ICT 未 来 发 展 的 研究 0 
《AI 的 “创收 能 力 ” 创 新 研究 会 汇 
四 本 SN 豆 息 终 员 会 中 期 汇 
人 工 智能 日 本 总 务 省 《智能 化 加 速 与 ICT 未 来 ”总 》《 信 息 汪汪 人 网 期 ; 
相关 的 分 站 报告 书 2015》 总 入 2015 年 版 《制造 业 白皮书 》 
析 和 报告 全 《自动 驾驶 商业 指导 方针 会 议 中 间 束 
理 报告 书 》 
研究 机 构 ”DWANGO 人 工 智能 研究 所 、Recruit ”AIST ( 产业 技术 综合 研究 所 ) 旗下 
旗下 的 Recruit Institute of Technology 设置 的 人 工 智 能 研究 中 心 
ET 
人 值 链 促进 会 ( Industrial Value Chain ee 物 联网 扒 
Institute，IVI ) 人 
. 新 一 代 机 器 人 的 核心 技术 开发 
综合 科学 技术 创新 会 议 、SIP ( 战略 性 ” ”( 2015 年 度 ，10 亿 日 元 ) 
研究 开发 )、 自 动 驾 “机 器 人 护理 设备 开发 及 导入 促进 
支援 、 导 员 会 ( 多 政府 部 门 合作 项 事业 ( 2010 年 度 ，255 亿 日 元 ) 
RR :总务 省 1 “ 机 器 人 活 | i 
* 经 济 产 业 省 ”驾驶 影像 数据 库 构 建 项 目 (2015 年 度 ，15 亿 
“内阁 府 ” 地 图 信息 高 精度 化 等 二 代 智 能 设备 开发 项 目 ( 2015 
a le) 
: 厚生 劳动 省 及 独立 行政 法 人 “高 龄 、 
人 才 培养 ”残疾 人 雇用 支援 机 构 " 人 会 议 
“大藏 省 ( 现 财务 省 ) 雇用 支援 机 构 ”( 文部 科学 省 与 经 济 产 业 省 合作 ) 


























( JEED ) 和 经 济 产业 省 合作 


摘自 《人 工 智 能 与 产业 和 社会 总 第 176 页 图 26 





中 原 书 名 为 『 了 人工 知 能 上 产业 ' 社会 |， 暂 无 中 文 版 。 一 一 译 者 注 
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在 基础 研究 方面 ， 全 球 范围 内 都 在 推进 脑 神 经 系统 的 研究 ， 日 本 也 不 
例外 。 

在 产业 应 用 方面 ， 日 本 将 重点 放 在 一 些 出 口 领域 ， 如 汽车 工业 、 制 造 
业 、 医 疗 护理 、 零 售 分 销 以 及 物流 等 。 

其 中 ， 基 于 图 像 识别 技术 的 应 用 受到 人 们 的 关注 ， 如 自动 驾驶 技术 、 
医疗 影像 辅助 诊断 技术 以 及 手术 辅助 系统 等 〈 )s 














零售 分 销 和 物流 














开本 产业 应 用 形态 


未 来 或 许 能 够 按照 在 现实 世界 中 的 呈现 程度 ， 对 人 工 智能 技术 的 发 展 
水 平 进行 分 级 (有 RE ). 














































































































































































































































































































四 原 书 名 为 [人 工 知 能 


上 产业 ， 


社会 | 暂 无 中 文 版 。 



































一 一 译 者 注 
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人 工 智 能 分 级 
[| | 特征 | ”和 禄 要 | ” 姑 休 示例 | 
画 。 通过 简单 的 处 理 和 检 制 ， 为 限 计算 机 将 模 ( 或 黑白 杠 、 旬 模 、 轩 可 
1 级 解决 玩具 问题 。 定 任务 导出 最 优 答案 
ee 村 .IBM 沃 森 ( 医疗 诊断 等 ) 
基于 特定 领域 知识 库 的 专家 系 
2 级 专家 UO) 
es 据 挖掘 发 现 规律 等 
一 一 .设备 故障 征兆 诊断 
“局 灾 式 学 习 
根据 设计 者 的 信息 处 理 模 型 ，` QQNG 没 备 、T 自动 化 
3 级 驱动 (actuation ) 改变 环境 ， 改变 现实 世界 的 ee 
EE 安全 驾驶 辅助 功能 
. 创新 机 器 人 
和 
能 的 启发 式 能 体能 理解 环境 ee 
4 级 进化 对 环境 加 以 概念 化 ， 进 而 达成 “通信 机 器 人 
目标 . 自 适应 学 习 
' 网 络 广告 的 AdTech、 金 融 的 FinTech 
a 各 种 人 工 智能 通过 网 络 连接 ， .智能 社区 
5 级 管 能 的 分 布 式 相互 作用 ， 自 主 合作 解决 诸多 .工业 4.0 
六 问题 . 自动 驾驶 汽车 和 协作 式 智能 交通 系统 
| | 区 段 | 直接 影响 间接 影响 
_ 放 或 习 (统计 机 吕 学 习 ) 二 
预测 诊 .请 家 判 a a a 
2 级 信息 活 让 人 
材料 : 继承 和 保存 专业 知识 
:专业 知识 人 4 库 构建 
. 最 优 控制 
. 智能 住宅 
. 智能 家 电 . 把 劳动 者 从 重度 劳动、 
a .无 人 机 乞 险 作业 中 解放 出 来 . 融合 信息 系统 和 机 械 工 
3 .工厂 自动 化 程 学 的 知识 
工程 辅助 
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截至 2016 年 ，2 级 技术 和 3 级 技术 正在 快速 地 渗透 到 我 们 日 常生 活 
的 各 个 领域 ， 当 前 的 最 新 人 研究 致力 于 实现 4 级 技术 。 预 计 4 级 技术 的 应 用 
场景 中 ， 除 基于 物 联网 的 智能 家 居 ( home automation ) 和 双向 通信 机 器 人 
外 ， 还 包括 教育 领域 中 能 够 基于 自 适应 学 习 自 动 配置 和 推荐 个 性 化 教育 课 
程 的 e-learning 系统 和 部 分 自动 驾驶 的 实现 ， 以 及 融合 了 金融 工程 和 人 工 
智能 技术 的 金融 科技 ( financial technology ) 等 。 

3 级 技术 已 经 实现 了 所 谓 的 智能 ( 服务 和 系统 名 称 ) 服务 和 系统 ， 而 
达到 4 级 以 上 的 技术 将 会 更 有 自主 性 ， 就 像 我 们 肉眼 很 难看 见 的 透明 人 。 

人 工 智 能 的 研究 开发 和 基于 机 器 学 习 的 服务 也 能 出 口 到 世界 各 地 。 但 
是 一 些 带 有 日 本 特色 的 领域 ， 如 自然 语言 处 理 可 能 比较 依赖 日 本 国内 的 需 
求 。 不 过 换个 角度 来 看 ， 劣 势 也 可 以 转化 为 优势 ， 因 为 这 些 特色 服务 只 有 
日 本 能 向 海外 出 售 。 

收集 海量 数据 是 今后 基于 人 工 智能 技术 开发 产品 和 服务 的 重 中 之 重 ， 
而 它 又 分 为 两 个 方面 ， 一 个 是 最 前 端 机 器 学 习 算 法 的 开发 ， 另 一 个 是 对 使 
用 海量 数据 集训 练 得 到 的 机 器 学 习 算 法 的 应 用 。 

这 种 趋势 已 然 存 在 ,今后 应 该 会 更 加 显著 。 导 入 现实 生活 中 的 海量 数 
据 逐 渐 成 为 技术 开发 的 一 个 必要 前 提 ， 如 果 不 能 确保 数据 的 存在 ， 训 练 得 
到 的 机 器 学 习 和 分 析 技 术 将 无 用 武之 地 。 

根据 要 处 理 的 数据 类 型 ， 使 用 的 深度 学 习 等 机 器 学 习 方 法 也 会 有 所 
不 同 ， 所 以 我 们 应 该 把 自己 置身 于 当下 环境 。 除 了 RR 语言 等 标准 数据 
集 ， 我 们 还 可 以 使 用 WordNet 和 ImageNet 等 数据 集 来 获得 各 种 数据 
( )s 
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机 器 学 习 算 法 的 群体 
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